BizFinBench.v2: un benchmark bilingue unificato a doppia modalità per l'allineamento delle capacità finanziarie a livello esperto

Abstract

I grandi modelli linguistici hanno subito una rapida evoluzione, emergendo come tecnologia fondamentale per l'intelligenza nelle operazioni finanziarie. Tuttavia, i benchmark esistenti sono spesso limitati da problematiche come la dipendenza da campioni simulati o generici e una focalizzazione su scenari singoli, statici e offline. Di conseguenza, non riescono ad allinearsi con i requisiti di autenticità e responsività in tempo reale dei servizi finanziari, portando a una significativa discrepanza tra le prestazioni misurate dai benchmark e l'efficacia operativa reale. Per affrontare questo problema, presentiamo BizFinBench.v2, il primo benchmark di valutazione su larga scala basato su dati aziendali autentici provenienti dai mercati azionari cinesi e statunitensi, integrando una valutazione online. Abbiamo eseguito un'analisi cluster su query utente autentiche da piattaforme finanziarie, ottenendo otto task fondamentali e due task online attraverso quattro scenari aziendali core, per un totale di 29.578 coppie domanda-risposta di livello esperto. I risultati sperimentali dimostrano che ChatGPT-5 raggiunge una notevole accuratezza del 61.5% nei task principali, sebbene permanga un divario sostanziale rispetto agli esperti finanziari; nei task online, DeepSeek-R1 supera tutti gli altri LLM commerciali. L'analisi degli errori identifica ulteriormente le specifiche carenze capacitative dei modelli esistenti all'interno di contesti pratici del business finanziario. BizFinBench.v2 supera i limiti degli attuali benchmark, raggiungendo una decostruzione a livello aziendale delle capacità finanziarie degli LLM e fornendo una base precisa per valutare l'efficacia nella diffusione su larga scala degli LLM all'interno del dominio finanziario. I dati e il codice sono disponibili su https://github.com/HiThink-Research/BizFinBench.v2.

English

Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.

BizFinBench.v2: un benchmark bilingue unificato a doppia modalità per l'allineamento delle capacità finanziarie a livello esperto

BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment

Abstract

Support