ChatPaper.aiChatPaper

BizFinBench.v2: Een uniforme dubbelmodus tweetalige benchmark voor expertniveau financiële capaciteitsafstemming

BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment

January 10, 2026
Auteurs: Xin Guo, Rongjunchen Zhang, Guilong Lu, Xuntao Guo, Shuai Jia, Zhi Yang, Liwen Zhang
cs.AI

Samenvatting

Grote taalmodellen hebben een snelle evolutie doorgemaakt en zijn uitgegroeid tot een cruciale technologie voor intelligentie in financiële operaties. Bestaande benchmarks worden echter vaak beperkt door valkuilen zoals afhankelijkheid van gesimuleerde of algemene steekproeven en een focus op enkelvoudige, offline statische scenario's. Hierdoor sluiten ze niet aan bij de vereisten voor authenticiteit en realtime responsiviteit in financiële diensten, wat leidt tot een aanzienlijke kloof tussen benchmarkprestaties en werkelijke operationele effectiviteit. Om dit aan te pakken, introduceren wij BizFinBench.v2, de eerste grootschalige evaluatiebenchmark gebaseerd op authentieke bedrijfsgegevens van zowel Chinese als Amerikaanse aandelenmarkten, geïntegreerd met online evaluatie. We voerden clusteranalyses uit op authentieke gebruikersvragen van financiële platforms, resulterend in acht fundamentele taken en twee online taken verspreid over vier kernbedrijfsscenario's, in totaal 29.578 expertniveau vraag-antwoordparen. Experimentele resultaten tonen aan dat ChatGPT-5 een opmerkelijke nauwkeurigheid van 61,5% behaalt in hoofd taken, hoewel een aanzienlijke kloof ten opzichte van financiële experts blijft bestaan; in online taken presteert DeepSeek-R1 beter dan alle andere commerciële grote taalmodellen. Foutenanalyse identificeert verder de specifieke capaciteitentekortkomingen van bestaande modellen binnen praktische financiële bedrijfscontexten. BizFinBench.v2 overstijgt de beperkingen van huidige benchmarks, bereikt een bedrijfsniveau deconstructie van financiële capaciteiten van grote taalmodellen en biedt een nauwkeurige basis voor het evalueren van effectiviteit bij de wijdverspreide inzet van grote taalmodellen binnen het financiële domein. De data en code zijn beschikbaar op https://github.com/HiThink-Research/BizFinBench.v2.
English
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.
PDF92January 16, 2026