ChatPaper.aiChatPaper

BizFinBench : Un benchmark financier réel axé sur les entreprises pour l'évaluation des modèles de langage de grande taille (LLM)

BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs

May 26, 2025
Auteurs: Guilong Lu, Xuntao Guo, Rongjunchen Zhang, Wenqiao Zhu, Ji Liu
cs.AI

Résumé

Les grands modèles de langage excellent dans les tâches générales, mais évaluer leur fiabilité dans des domaines exigeant une logique rigoureuse et une précision critique, comme la finance, le droit et la santé, reste un défi. Pour y remédier, nous présentons BizFinBench, le premier benchmark spécifiquement conçu pour évaluer les LLM dans des applications financières réelles. BizFinBench comprend 6 781 requêtes bien annotées en chinois, couvrant cinq dimensions : calcul numérique, raisonnement, extraction d'informations, reconnaissance de prédictions et réponse à des questions basées sur des connaissances, regroupées en neuf catégories fines. Le benchmark inclut des métriques objectives et subjectives. Nous introduisons également IteraJudge, une nouvelle méthode d'évaluation des LLM qui réduit les biais lorsque les LLM servent d'évaluateurs dans les métriques objectives. Nous évaluons 25 modèles, incluant des systèmes propriétaires et open source. Des expériences approfondies montrent qu'aucun modèle ne domine toutes les tâches. Notre évaluation révèle des schémas de capacités distincts : (1) En Calcul Numérique, Claude-3.5-Sonnet (63,18) et DeepSeek-R1 (64,04) mènent, tandis que les petits modèles comme Qwen2.5-VL-3B (15,92) sont nettement à la traîne ; (2) En Raisonnement, les modèles propriétaires dominent (ChatGPT-o3 : 83,58, Gemini-2.0-Flash : 81,15), avec les modèles open source en retard de jusqu'à 19,49 points ; (3) En Extraction d'Informations, l'écart de performance est le plus important, avec DeepSeek-R1 à 71,46, tandis que Qwen3-1.7B obtient 11,23 ; (4) En Reconnaissance de Prédictions, la variance de performance est minimale, avec les meilleurs modèles obtenant des scores entre 39,16 et 50,00. Nous constatons que si les LLM actuels gèrent bien les requêtes financières routinières, ils peinent dans des scénarios complexes nécessitant un raisonnement interconceptuel. BizFinBench offre un benchmark rigoureux et aligné sur les besoins métiers pour les recherches futures. Le code et le jeu de données sont disponibles à l'adresse https://github.com/HiThink-Research/BizFinBench.
English
Large language models excel in general tasks, yet assessing their reliability in logic-heavy, precision-critical domains like finance, law, and healthcare remains challenging. To address this, we introduce BizFinBench, the first benchmark specifically designed to evaluate LLMs in real-world financial applications. BizFinBench consists of 6,781 well-annotated queries in Chinese, spanning five dimensions: numerical calculation, reasoning, information extraction, prediction recognition, and knowledge-based question answering, grouped into nine fine-grained categories. The benchmark includes both objective and subjective metrics. We also introduce IteraJudge, a novel LLM evaluation method that reduces bias when LLMs serve as evaluators in objective metrics. We benchmark 25 models, including both proprietary and open-source systems. Extensive experiments show that no model dominates across all tasks. Our evaluation reveals distinct capability patterns: (1) In Numerical Calculation, Claude-3.5-Sonnet (63.18) and DeepSeek-R1 (64.04) lead, while smaller models like Qwen2.5-VL-3B (15.92) lag significantly; (2) In Reasoning, proprietary models dominate (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), with open-source models trailing by up to 19.49 points; (3) In Information Extraction, the performance spread is the largest, with DeepSeek-R1 scoring 71.46, while Qwen3-1.7B scores 11.23; (4) In Prediction Recognition, performance variance is minimal, with top models scoring between 39.16 and 50.00. We find that while current LLMs handle routine finance queries competently, they struggle with complex scenarios requiring cross-concept reasoning. BizFinBench offers a rigorous, business-aligned benchmark for future research. The code and dataset are available at https://github.com/HiThink-Research/BizFinBench.

Summary

AI-Generated Summary

PDF594May 27, 2025