ChatPaper.aiChatPaper

MultiFinBen: 金融LLM評価のための多言語・多モーダル・難易度対応ベンチマーク

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

June 16, 2025
著者: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie
cs.AI

要旨

大規模言語モデル(LLMs)の最近の進展により、金融分野の自然言語処理(NLP)とその応用が加速している。しかし、既存のベンチマークは単一言語および単一モダリティの設定に限定されており、しばしば単純なタスクに過度に依存し、現実世界の金融コミュニケーションの複雑さを十分に反映していない。本研究では、グローバルな金融領域に特化した初の多言語・多モダリティベンチマークであるMultiFinBenを提案する。このベンチマークは、テキスト、視覚、音声といったモダリティと、単一言語、二言語、多言語といった言語設定において、LLMsをドメイン固有のタスクで評価する。さらに、混合言語入力に対する複雑な推論を要求する初の多言語金融ベンチマークであるPolyFiQA-EasyとPolyFiQA-Expert、および視覚的テキスト金融文書から情報を抽出し推論することをモデルに求める初のOCR組み込み金融QAタスクであるEnglishOCRとSpanishOCRという2つの新規タスクを導入する。また、既存のデータセットを単純に集約するのではなく、動的で難易度を考慮した選択メカニズムを提案し、コンパクトでバランスの取れたベンチマークを構築した。22の最先端モデルに対する広範な評価の結果、最も強力なモデルでさえ、一般的な多モダリティおよび多言語能力を持ちながらも、金融領域における複雑なクロスリンガルおよび多モダリティタスクに直面すると劇的に苦戦することが明らかになった。MultiFinBenは公開され、金融研究および応用における透明性、再現性、包括的な進展を促進することを目指している。
English
Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.
PDF813June 18, 2025