BizFinBench.v2 : Un benchmark bilingue unifié à double mode pour l'alignement des compétences financières de niveau expert
BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
January 10, 2026
papers.authors: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang
cs.AI
papers.abstract
Les grands modèles de langage ont connu une évolution rapide, émergeant comme une technologie pivot pour l'intelligence dans les opérations financières. Cependant, les bancs d'essai existants sont souvent limités par des écueils tels que la dépendance à des échantillons simulés ou généralistes et une focalisation sur des scénarios statiques uniques et hors ligne. Par conséquent, ils ne répondent pas aux exigences d'authenticité et de réactivité en temps réel des services financiers, créant un écart significatif entre les performances mesurées et l'efficacité opérationnelle réelle. Pour y remédier, nous présentons BizFinBench.v2, le premier banc d'essai d'évaluation à grande échelle fondé sur des données commerciales authentiques des marchés actions chinois et américain, intégrant une évaluation en ligne. Nous avons réalisé une analyse de clustering sur des requêtes utilisateur authentiques provenant de plateformes financières, aboutissant à huit tâches fondamentales et deux tâches en ligne couvrant quatre scénarios métier centraux, totalisant 29 578 paires questions-réponses de niveau expert. Les résultats expérimentaux montrent que ChatGPT-5 atteint une précision remarquable de 61,5% dans les tâches principales, bien qu'un écart substantiel persiste par rapport aux experts financiers ; dans les tâches en ligne, DeepSeek-R1 surpasse tous les autres LLM commerciaux. L'analyse des erreurs identifie en outre les lacunes spécifiques des modèles existants dans les contextes métier financiers pratiques. BizFinBench.v2 transcende les limites des bancs d'essai actuels, réalisant une déconstruction au niveau métier des capacités financières des LLM et fournissant une base précise pour évaluer l'efficacité du déploiement massif des LLM dans le domaine financier. Les données et le code sont disponibles à l'adresse https://github.com/HiThink-Research/BizFinBench.v2.
English
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.