ChatPaper.aiChatPaper

MultiFinBen : Un benchmark multilingue, multimodal et sensible à la difficulté pour l'évaluation des LLM financiers

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

June 16, 2025
Auteurs: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie
cs.AI

Résumé

Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont accéléré les progrès dans le domaine du traitement automatique du langage naturel (NLP) financier et ses applications. Cependant, les benchmarks existants restent limités à des contextes monolingues et unimodaux, reposant souvent sur des tâches simples et ne reflétant pas la complexité des communications financières réelles. Nous présentons MultiFinBen, le premier benchmark multilingue et multimodal conçu spécifiquement pour le domaine financier mondial, évaluant les LLMs à travers différentes modalités (texte, vision, audio) et contextes linguistiques (monolingue, bilingue, multilingue) sur des tâches spécifiques au domaine. Nous introduisons deux nouvelles tâches, notamment PolyFiQA-Easy et PolyFiQA-Expert, les premiers benchmarks financiers multilingues exigeant des modèles qu'ils effectuent un raisonnement complexe sur des entrées en langues mixtes ; ainsi que EnglishOCR et SpanishOCR, les premières tâches de question-réponse financières intégrant la reconnaissance optique de caractères (OCR), mettant au défi les modèles d'extraire et de raisonner sur des informations à partir de documents financiers visuels-textuels. De plus, nous proposons un mécanisme de sélection dynamique et adapté à la difficulté, et constituons un benchmark compact et équilibré plutôt qu'une simple agrégation de jeux de données existants. Une évaluation approfondie de 22 modèles de pointe révèle que même les modèles les plus performants, malgré leurs capacités générales multimodales et multilingues, rencontrent des difficultés majeures face à des tâches complexes multilingues et multimodales dans le domaine financier. MultiFinBen est rendu public pour favoriser des progrès transparents, reproductibles et inclusifs dans les études et applications financières.
English
Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.
PDF813June 18, 2025