ChatPaper.aiChatPaper

BizFinBench: Um Benchmark Financeiro do Mundo Real Orientado a Negócios para Avaliação de LLMs

BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs

May 26, 2025
Autores: Guilong Lu, Xuntao Guo, Rongjunchen Zhang, Wenqiao Zhu, Ji Liu
cs.AI

Resumo

Modelos de linguagem de grande escala se destacam em tarefas gerais, mas avaliar sua confiabilidade em domínios que exigem lógica e precisão, como finanças, direito e saúde, continua sendo um desafio. Para abordar isso, apresentamos o BizFinBench, o primeiro benchmark projetado especificamente para avaliar LLMs em aplicações financeiras do mundo real. O BizFinBench consiste em 6.781 consultas bem anotadas em chinês, abrangendo cinco dimensões: cálculo numérico, raciocínio, extração de informações, reconhecimento de previsões e respostas a perguntas baseadas em conhecimento, agrupadas em nove categorias detalhadas. O benchmark inclui métricas tanto objetivas quanto subjetivas. Também introduzimos o IteraJudge, um novo método de avaliação de LLMs que reduz o viés quando os LLMs atuam como avaliadores em métricas objetivas. Avaliamos 25 modelos, incluindo sistemas proprietários e de código aberto. Experimentos extensivos mostram que nenhum modelo domina todas as tarefas. Nossa avaliação revela padrões distintos de capacidade: (1) Em Cálculo Numérico, Claude-3.5-Sonnet (63,18) e DeepSeek-R1 (64,04) lideram, enquanto modelos menores como Qwen2.5-VL-3B (15,92) ficam significativamente atrás; (2) Em Raciocínio, modelos proprietários dominam (ChatGPT-o3: 83,58, Gemini-2.0-Flash: 81,15), com modelos de código aberto atrás em até 19,49 pontos; (3) Em Extração de Informações, a dispersão de desempenho é a maior, com DeepSeek-R1 marcando 71,46, enquanto Qwen3-1.7B marca 11,23; (4) Em Reconhecimento de Previsões, a variação de desempenho é mínima, com os melhores modelos marcando entre 39,16 e 50,00. Descobrimos que, embora os LLMs atuais lidem bem com consultas financeiras rotineiras, eles têm dificuldades em cenários complexos que exigem raciocínio entre conceitos. O BizFinBench oferece um benchmark rigoroso e alinhado com negócios para pesquisas futuras. O código e o conjunto de dados estão disponíveis em https://github.com/HiThink-Research/BizFinBench.
English
Large language models excel in general tasks, yet assessing their reliability in logic-heavy, precision-critical domains like finance, law, and healthcare remains challenging. To address this, we introduce BizFinBench, the first benchmark specifically designed to evaluate LLMs in real-world financial applications. BizFinBench consists of 6,781 well-annotated queries in Chinese, spanning five dimensions: numerical calculation, reasoning, information extraction, prediction recognition, and knowledge-based question answering, grouped into nine fine-grained categories. The benchmark includes both objective and subjective metrics. We also introduce IteraJudge, a novel LLM evaluation method that reduces bias when LLMs serve as evaluators in objective metrics. We benchmark 25 models, including both proprietary and open-source systems. Extensive experiments show that no model dominates across all tasks. Our evaluation reveals distinct capability patterns: (1) In Numerical Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning, proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with open-source models trailing by up to 19.49 points; (3) In Information Extraction, the performance spread is the largest, with DeepSeek-R1 scoring 71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition, performance variance is minimal, with top models scoring between 39.16 and 50.00. We find that while current LLMs handle routine finance queries competently, they struggle with complex scenarios requiring cross-concept reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future research. The code and dataset are available at https://github.com/HiThink-Research/BizFinBench.
PDF644December 16, 2025