BizFinBench: Un Benchmark Finanziario Reale Guidato dal Business per la Valutazione dei Modelli Linguistici
BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
May 26, 2025
Autori: Guilong Lu, Xuntao Guo, Rongjunchen Zhang, Wenqiao Zhu, Ji Liu
cs.AI
Abstract
I grandi modelli linguistici eccellono in compiti generali, ma valutare la loro affidabilità in domini ad alta intensità logica e critici per la precisione, come finanza, diritto e sanità, rimane una sfida. Per affrontare questo problema, introduciamo BizFinBench, il primo benchmark specificamente progettato per valutare i LLM in applicazioni finanziarie reali. BizFinBench è composto da 6.781 query ben annotate in cinese, che coprono cinque dimensioni: calcolo numerico, ragionamento, estrazione di informazioni, riconoscimento di previsioni e risposte a domande basate sulla conoscenza, raggruppate in nove categorie dettagliate. Il benchmark include sia metriche oggettive che soggettive. Introduciamo anche IteraJudge, un nuovo metodo di valutazione dei LLM che riduce i bias quando i LLM fungono da valutatori nelle metriche oggettive. Abbiamo testato 25 modelli, inclusi sia sistemi proprietari che open-source. Esperimenti estesi dimostrano che nessun modello domina in tutti i compiti. La nostra valutazione rivela distinti schemi di capacità: (1) Nel Calcolo Numerico, Claude-3.5-Sonnet (63.18) e DeepSeek-R1 (64.04) sono in testa, mentre modelli più piccoli come Qwen2.5-VL-3B (15.92) sono significativamente indietro; (2) Nel Ragionamento, i modelli proprietari dominano (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), con i modelli open-source che restano indietro fino a 19.49 punti; (3) Nell'Estrazione di Informazioni, la diffusione delle prestazioni è la più ampia, con DeepSeek-R1 che ottiene 71.46, mentre Qwen3-1.7B ottiene 11.23; (4) Nel Riconoscimento di Previsioni, la varianza delle prestazioni è minima, con i modelli migliori che ottengono punteggi tra 39.16 e 50.00. Troviamo che, sebbene gli attuali LLM gestiscano con competenza le query finanziarie di routine, hanno difficoltà con scenari complessi che richiedono ragionamenti tra concetti. BizFinBench offre un benchmark rigoroso e allineato al business per la ricerca futura. Il codice e il dataset sono disponibili su https://github.com/HiThink-Research/BizFinBench.
English
Large language models excel in general tasks, yet assessing their reliability
in logic-heavy, precision-critical domains like finance, law, and healthcare
remains challenging. To address this, we introduce BizFinBench, the first
benchmark specifically designed to evaluate LLMs in real-world financial
applications. BizFinBench consists of 6,781 well-annotated queries in Chinese,
spanning five dimensions: numerical calculation, reasoning, information
extraction, prediction recognition, and knowledge-based question answering,
grouped into nine fine-grained categories. The benchmark includes both
objective and subjective metrics. We also introduce IteraJudge, a novel LLM
evaluation method that reduces bias when LLMs serve as evaluators in objective
metrics. We benchmark 25 models, including both proprietary and open-source
systems. Extensive experiments show that no model dominates across all tasks.
Our evaluation reveals distinct capability patterns: (1) In Numerical
Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while
smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning,
proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with
open-source models trailing by up to 19.49 points; (3) In Information
Extraction, the performance spread is the largest, with DeepSeek-R1 scoring
71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition,
performance variance is minimal, with top models scoring between 39.16 and
50.00. We find that while current LLMs handle routine finance queries
competently, they struggle with complex scenarios requiring cross-concept
reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future
research. The code and dataset are available at
https://github.com/HiThink-Research/BizFinBench.