BizFinBench.v2:専門家レベルの金融能力評価を目的とした統一的双モードバイリンガルベンチマーク
BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
January 10, 2026
著者: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang
cs.AI
要旨
大規模言語モデルは急速な進化を遂げ、金融業務における知能化の基盤技術として登場しました。しかし、既存のベンチマークは、模擬的または汎用的なサンプルへの依存や、単一のオフライン静的なシナリオに焦点を当てるといった課題に制約されることが多いです。その結果、金融サービスにおける真正性とリアルタイム応答性の要件に適合せず、ベンチマークの性能と実際の業務効率性との間に大きな乖離が生じています。この問題に対処するため、我々は中国と米国の株式市場における実際のビジネスデータに基づき、オンライン評価を統合した初の大規模評価ベンチマーク「BizFinBench.v2」を提案します。金融プラットフォームからの実際のユーザークエリに対してクラスタリング分析を実施し、4つの核心業務シナリオにわたる8つの基本タスクと2つのオンライタスク、合計29,578組の専門家レベルの質疑応答ペアを構築しました。実験結果では、ChatGPT-5が主要タスクで61.5%の顕著な正答率を達成する一方、金融専門家との間には依然として大きな隔たりが存在することが示されました。オンラインタスクでは、DeepSeek-R1が他の全ての商用LLMを凌駕する性能を示しました。誤り分析により、実践的な金融業務コンテキストにおける既存モデルの特定の能力不足がさらに明らかになりました。BizFinBench.v2は現行ベンチマークの限界を超越し、LLMの金融能力を業務レベルで分解するとともに、金融領域におけるLLMの広範な導入時の効果評価に向けた精密な基盤を提供します。データとコードはhttps://github.com/HiThink-Research/BizFinBench.v2で公開されています。
English
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.