MultiFinBen: Ein mehrsprachiger, multimodaler und schwierigkeitsbewusster Benchmark für die Bewertung von Finanz-LLMs
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation
June 16, 2025
Autoren: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben den Fortschritt im Bereich der finanziellen NLP und Anwendungen beschleunigt, doch bestehende Benchmarks beschränken sich weiterhin auf monolinguale und unimodale Settings, die oft zu stark auf einfache Aufgaben setzen und die Komplexität der realen finanziellen Kommunikation nicht widerspiegeln. Wir stellen MultiFinBen vor, den ersten mehrsprachigen und multimodalen Benchmark, der speziell für den globalen Finanzbereich entwickelt wurde und LLMs über Modalitäten (Text, Vision, Audio) und sprachliche Settings (monolingual, bilingual, mehrsprachig) in domänenspezifischen Aufgaben bewertet. Wir führen zwei neuartige Aufgaben ein, darunter PolyFiQA-Easy und PolyFiQA-Expert, die ersten mehrsprachigen finanziellen Benchmarks, die von Modellen komplexes Schlussfolgern über gemischtsprachige Eingaben erfordern; sowie EnglishOCR und SpanishOCR, die ersten OCR-integrierten finanziellen Frage-Antwort-Aufgaben, die Modelle dazu herausfordern, Informationen aus visuell-textuellen Finanzdokumenten zu extrahieren und darüber zu schlussfolgern. Darüber hinaus schlagen wir einen dynamischen, schwierigkeitsbewussten Auswahlmechanismus vor und kuratieren einen kompakten, ausgewogenen Benchmark anstelle einer einfachen Aggregation bestehender Datensätze. Eine umfangreiche Evaluierung von 22 state-of-the-art Modellen zeigt, dass selbst die leistungsstärksten Modelle trotz ihrer allgemeinen multimodalen und mehrsprachigen Fähigkeiten erhebliche Schwierigkeiten haben, wenn sie mit komplexen cross-lingualen und multimodalen Aufgaben im Finanzbereich konfrontiert werden. MultiFinBen wird öffentlich zugänglich gemacht, um transparente, reproduzierbare und inklusive Fortschritte in finanziellen Studien und Anwendungen zu fördern.
English
Recent advances in large language models (LLMs) have accelerated progress in
financial NLP and applications, yet existing benchmarks remain limited to
monolingual and unimodal settings, often over-relying on simple tasks and
failing to reflect the complexity of real-world financial communication. We
introduce MultiFinBen, the first multilingual and multimodal benchmark tailored
to the global financial domain, evaluating LLMs across modalities (text,
vision, audio) and linguistic settings (monolingual, bilingual, multilingual)
on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy
and PolyFiQA-Expert, the first multilingual financial benchmarks requiring
models to perform complex reasoning over mixed-language inputs; and EnglishOCR
and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to
extract and reason over information from visual-text financial documents.
Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate
a compact, balanced benchmark rather than simple aggregation existing datasets.
Extensive evaluation of 22 state-of-the-art models reveals that even the
strongest models, despite their general multimodal and multilingual
capabilities, struggle dramatically when faced with complex cross-lingual and
multimodal tasks in financial domain. MultiFinBen is publicly released to
foster transparent, reproducible, and inclusive progress in financial studies
and applications.