BizFinBench: Een bedrijfsgedreven, real-world financiële benchmark voor het evalueren van LLM's

Samenvatting

Grote taalmodellen blinken uit in algemene taken, maar het beoordelen van hun betrouwbaarheid in logica-intensieve, precisie-kritieke domeinen zoals financiën, recht en gezondheidszorg blijft een uitdaging. Om dit aan te pakken, introduceren we BizFinBench, de eerste benchmark die specifiek is ontworpen om taalmodellen te evalueren in real-world financiële toepassingen. BizFinBench bestaat uit 6.781 goed geannoteerde queries in het Chinees, verdeeld over vijf dimensies: numerieke berekening, redenering, informatie-extractie, voorspellingsherkenning en kennisgebaseerde vraagbeantwoording, gegroepeerd in negen fijnmazige categorieën. De benchmark omvat zowel objectieve als subjectieve metrieken. We introduceren ook IteraJudge, een nieuwe evaluatiemethode voor taalmodellen die bias vermindert wanneer taalmodellen als beoordelaars dienen in objectieve metrieken. We evalueren 25 modellen, waaronder zowel propriëtaire als open-source systemen. Uitgebreide experimenten tonen aan dat geen enkel model domineert over alle taken. Onze evaluatie onthult duidelijke capaciteitspatronen: (1) In Numerieke Berekening leiden Claude-3.5-Sonnet (63.18) en DeepSeek-R1 (64.04), terwijl kleinere modellen zoals Qwen2.5-VL-3B (15.92) aanzienlijk achterblijven; (2) In Redenering domineren propriëtaire modellen (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), met open-source modellen die tot 19.49 punten achterlopen; (3) In Informatie-extractie is de prestatieverspreiding het grootst, met DeepSeek-R1 die 71.46 scoort, terwijl Qwen3-1.7B 11.23 scoort; (4) In Voorspellingsherkenning is de prestatievariatie minimaal, met topmodellen die scoren tussen 39.16 en 50.00. We constateren dat hoewel huidige taalmodellen routinematige financiële queries competent afhandelen, ze moeite hebben met complexe scenario's die kruisconcept-redenering vereisen. BizFinBench biedt een rigoureuze, bedrijfsgerichte benchmark voor toekomstig onderzoek. De code en dataset zijn beschikbaar op https://github.com/HiThink-Research/BizFinBench.

English

Large language models excel in general tasks, yet assessing their reliability in logic-heavy, precision-critical domains like finance, law, and healthcare remains challenging. To address this, we introduce BizFinBench, the first benchmark specifically designed to evaluate LLMs in real-world financial applications. BizFinBench consists of 6,781 well-annotated queries in Chinese, spanning five dimensions: numerical calculation, reasoning, information extraction, prediction recognition, and knowledge-based question answering, grouped into nine fine-grained categories. The benchmark includes both objective and subjective metrics. We also introduce IteraJudge, a novel LLM evaluation method that reduces bias when LLMs serve as evaluators in objective metrics. We benchmark 25 models, including both proprietary and open-source systems. Extensive experiments show that no model dominates across all tasks. Our evaluation reveals distinct capability patterns: (1) In Numerical Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning, proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with open-source models trailing by up to 19.49 points; (3) In Information Extraction, the performance spread is the largest, with DeepSeek-R1 scoring 71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition, performance variance is minimal, with top models scoring between 39.16 and 50.00. We find that while current LLMs handle routine finance queries competently, they struggle with complex scenarios requiring cross-concept reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future research. The code and dataset are available at https://github.com/HiThink-Research/BizFinBench.

BizFinBench: Een bedrijfsgedreven, real-world financiële benchmark voor het evalueren van LLM's

BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs

Samenvatting

Support