ChatPaper.aiChatPaper

MultiFinBen: Een meertalige, multimodale en moeilijkheidsbewuste benchmark voor de evaluatie van financiële grote taalmodellen

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

June 16, 2025
Auteurs: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de vooruitgang in financiële NLP en toepassingen versneld, maar bestaande benchmarks blijven beperkt tot eentalige en unimodale instellingen, waarbij vaak te veel wordt vertrouwd op eenvoudige taken en de complexiteit van echte financiële communicatie niet wordt weerspiegeld. Wij introduceren MultiFinBen, de eerste meertalige en multimodale benchmark die is afgestemd op het mondiale financiële domein, en evalueren LLMs over modaliteiten (tekst, beeld, audio) en taalkundige instellingen (eentalig, tweetalig, meertalig) op domeinspecifieke taken. We introduceren twee nieuwe taken, waaronder PolyFiQA-Easy en PolyFiQA-Expert, de eerste meertalige financiële benchmarks die modellen vereisen om complexe redeneringen uit te voeren over gemengde taalinvoer; en EnglishOCR en SpanishOCR, de eerste OCR-geïntegreerde financiële QA-taken die modellen uitdagen om informatie te extraheren en te redeneren over visueel-tekstuele financiële documenten. Bovendien stellen we een dynamisch, moeilijkheidsgraad-bewust selectiemechanisme voor en stellen we een compacte, gebalanceerde benchmark samen in plaats van een eenvoudige aggregatie van bestaande datasets. Uitgebreide evaluatie van 22 state-of-the-art modellen onthult dat zelfs de sterkste modellen, ondanks hun algemene multimodale en meertalige capaciteiten, dramatisch worstelen wanneer ze worden geconfronteerd met complexe cross-linguale en multimodale taken in het financiële domein. MultiFinBen wordt openbaar vrijgegeven om transparante, reproduceerbare en inclusieve vooruitgang in financiële studies en toepassingen te bevorderen.
English
Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.
PDF913June 18, 2025