BizFinBench: Ein geschäftsorientierter, realitätsnaher Finanzbenchmark zur Bewertung von LLMs
BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs
May 26, 2025
Autoren: Guilong Lu, Xuntao Guo, Rongjunchen Zhang, Wenqiao Zhu, Ji Liu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) glänzen bei allgemeinen Aufgaben, doch die Bewertung ihrer Zuverlässigkeit in logikintensiven, präzisionskritischen Bereichen wie Finanzen, Recht und Gesundheitswesen bleibt eine Herausforderung. Um dies zu adressieren, stellen wir BizFinBench vor, den ersten Benchmark, der speziell zur Bewertung von LLMs in realen finanziellen Anwendungen entwickelt wurde. BizFinBench besteht aus 6.781 gut annotierten Anfragen in Chinesisch, die fünf Dimensionen abdecken: numerische Berechnung, logisches Schlussfolgern, Informationsextraktion, Vorhersageerkennung und wissensbasierte Fragebeantwortung, gruppiert in neun fein granulierte Kategorien. Der Benchmark umfasst sowohl objektive als auch subjektive Metriken. Wir führen zudem IteraJudge ein, eine neuartige Methode zur Bewertung von LLMs, die Verzerrungen reduziert, wenn LLMs als Bewerter in objektiven Metriken dienen. Wir evaluieren 25 Modelle, darunter sowohl proprietäre als auch Open-Source-Systeme. Umfangreiche Experimente zeigen, dass kein Modell in allen Aufgaben dominiert. Unsere Bewertung offenbart deutliche Fähigkeitsmuster: (1) Bei der numerischen Berechnung führen Claude-3.5-Sonnet (63,18) und DeepSeek-R1 (64,04), während kleinere Modelle wie Qwen2.5-VL-3B (15,92) deutlich zurückliegen; (2) Beim logischen Schlussfolgern dominieren proprietäre Modelle (ChatGPT-o3: 83,58, Gemini-2.0-Flash: 81,15), wobei Open-Source-Modelle bis zu 19,49 Punkte zurückliegen; (3) Bei der Informationsextraktion ist die Leistungsspanne am größten, mit DeepSeek-R1 bei 71,46 und Qwen3-1.7B bei 11,23; (4) Bei der Vorhersageerkennung ist die Leistungsvarianz minimal, wobei die besten Modelle zwischen 39,16 und 50,00 punkten. Wir stellen fest, dass aktuelle LLMs routinemäßige Finanzanfragen kompetent bewältigen, jedoch mit komplexen Szenarien, die übergreifendes Konzeptverständnis erfordern, zu kämpfen haben. BizFinBench bietet einen rigorosen, geschäftsorientierten Benchmark für zukünftige Forschung. Der Code und der Datensatz sind verfügbar unter https://github.com/HiThink-Research/BizFinBench.
English
Large language models excel in general tasks, yet assessing their reliability
in logic-heavy, precision-critical domains like finance, law, and healthcare
remains challenging. To address this, we introduce BizFinBench, the first
benchmark specifically designed to evaluate LLMs in real-world financial
applications. BizFinBench consists of 6,781 well-annotated queries in Chinese,
spanning five dimensions: numerical calculation, reasoning, information
extraction, prediction recognition, and knowledge-based question answering,
grouped into nine fine-grained categories. The benchmark includes both
objective and subjective metrics. We also introduce IteraJudge, a novel LLM
evaluation method that reduces bias when LLMs serve as evaluators in objective
metrics. We benchmark 25 models, including both proprietary and open-source
systems. Extensive experiments show that no model dominates across all tasks.
Our evaluation reveals distinct capability patterns: (1) In Numerical
Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while
smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning,
proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with
open-source models trailing by up to 19.49 points; (3) In Information
Extraction, the performance spread is the largest, with DeepSeek-R1 scoring
71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition,
performance variance is minimal, with top models scoring between 39.16 and
50.00. We find that while current LLMs handle routine finance queries
competently, they struggle with complex scenarios requiring cross-concept
reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future
research. The code and dataset are available at
https://github.com/HiThink-Research/BizFinBench.Summary
AI-Generated Summary