BizFinBench.v2: Um Benchmark Bilíngue Unificado de Modo Duplo para Alinhamento de Capacidade Financeira em Nível Especializado

Resumo

Os grandes modelos de linguagem passaram por uma rápida evolução, emergindo como uma tecnologia pivotal para a inteligência nas operações financeiras. No entanto, os benchmarks existentes são frequentemente limitados por armadilhas como a dependência de amostras simuladas ou de uso geral e um foco em cenários estáticos offline e singulares. Consequentemente, eles falham em se alinhar com os requisitos de autenticidade e capacidade de resposta em tempo real dos serviços financeiros, levando a uma discrepância significativa entre o desempenho no benchmark e a eficácia operacional real. Para resolver isso, apresentamos o BizFinBench.v2, o primeiro benchmark de avaliação em larga escala baseado em dados empresariais autênticos dos mercados acionários chinês e norte-americano, integrando avaliação online. Realizamos uma análise de clusterização em consultas de usuários reais de plataformas financeiras, resultando em oito tarefas fundamentais e duas tarefas online abrangendo quatro cenários de negócios centrais, totalizando 29.578 pares de perguntas e respostas de nível especialista. Os resultados experimentais demonstram que o ChatGPT-5 alcança uma proeminente precisão de 61,5% nas tarefas principais, embora uma lacuna substancial em relação aos especialistas financeiros persista; nas tarefas online, o DeepSeek-R1 supera todos os outros LLMs comerciais. A análise de erros identifica ainda as deficiências específicas de capacidade dos modelos existentes dentro de contextos práticos de negócios financeiros. O BizFinBench.v2 transcende as limitações dos benchmarks atuais, alcançando uma desconstrução em nível de negócio das capacidades financeiras dos LLMs e fornecendo uma base precisa para avaliar a eficácia na implantação generalizada de LLMs dentro do domínio financeiro. Os dados e o código estão disponíveis em https://github.com/HiThink-Research/BizFinBench.v2.

English

Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.