ChatPaper.aiChatPaper

MultiFinBen: Un punto de referencia multilingüe, multimodal y consciente de la dificultad para la evaluación de LLM financieros

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

June 16, 2025
Autores: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie
cs.AI

Resumen

Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han acelerado el progreso en el procesamiento del lenguaje natural (NLP) financiero y sus aplicaciones. Sin embargo, los puntos de referencia existentes siguen limitándose a entornos monolingües y unimodales, a menudo dependiendo en exceso de tareas simples y sin reflejar la complejidad de la comunicación financiera del mundo real. Presentamos MultiFinBen, el primer punto de referencia multilingüe y multimodal diseñado específicamente para el ámbito financiero global, que evalúa los LLMs en diferentes modalidades (texto, visión, audio) y contextos lingüísticos (monolingüe, bilingüe, multilingüe) en tareas específicas del dominio. Introducimos dos tareas novedosas: PolyFiQA-Easy y PolyFiQA-Expert, los primeros puntos de referencia financieros multilingües que requieren que los modelos realicen razonamientos complejos sobre entradas en idiomas mixtos; y EnglishOCR y SpanishOCR, las primeras tareas de preguntas y respuestas (QA) financieras integradas con OCR que desafían a los modelos a extraer y razonar sobre información a partir de documentos financieros visual-textuales. Además, proponemos un mecanismo de selección dinámico y consciente de la dificultad, y elaboramos un punto de referencia compacto y equilibrado en lugar de una simple agregación de conjuntos de datos existentes. Una evaluación extensa de 22 modelos de última generación revela que incluso los modelos más potentes, a pesar de sus capacidades generales multimodales y multilingües, enfrentan dificultades significativas al abordar tareas complejas multilingües y multimodales en el ámbito financiero. MultiFinBen se ha publicado públicamente para fomentar un progreso transparente, reproducible e inclusivo en los estudios y aplicaciones financieras.
English
Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.
PDF813June 18, 2025