BizFinBench.v2: 전문가 수준 금융 역량 정렬을 위한 통합 이중 모드 이중 언어 벤치마크
BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
January 10, 2026
저자: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang
cs.AI
초록
대규모 언어 모델은 빠르게 진화하며 금융 업무 지능화의 핵심 기술로 부상했습니다. 그러나 기존 벤치마크는 시뮬레이션 또는 범용 샘플에 의존하거나 단일의 오프라인 정적 시나리오에 집중하는 등의 한계로 인해, 금융 서비스가 요구하는 실제성과 실시간 응답성 요구사항을 충족하지 못합니다. 이로 인해 벤치마크 성능과 실제 운영 효율 간에 상당한 격차가 발생하고 있습니다. 이를 해결하기 위해 본 논문에서는 중국과 미국 주식 시장의 실제 비즈니스 데이터를 기반으로 온라인 평가를 통합한 최초의 대규모 평가 벤치마크인 BizFinBench.v2를 소개합니다. 금융 플랫폼의 실제 사용자 질의에 대해 군집 분석을 수행하여 4가지 핵심 비즈니스 시나리오 내 8가지 기본 작업과 2가지 온라인 작업, 총 29,578개의 전문가 수준 문답 쌍을 구성했습니다. 실험 결과, ChatGPT-5는 주요 작업에서 61.5%의 높은 정확도를 달성했으나 금융 전문가 대비 상당한 격차가 여전히 존재했습니다. 온라인 작업에서는 DeepSeek-R1이 다른 모든 상용 LLM을 능가했습니다. 오류 분석을 통해 실제 금융 비즈니스 맥락에서 기존 모델의 구체적인 능력 결함을 추가로 규명했습니다. BizFinBench.v2는 현행 벤치마크의 한계를 넘어 LLM의 금융 역량을 비즈니스 수준에서 세분화하여, 금융 분야 LLM 광범위 도배 시 운영 효율성 평가를 위한 정밀한 기준을 제공합니다. 데이터와 코드는 https://github.com/HiThink-Research/BizFinBench.v2에서 이용 가능합니다.
English
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.