ChatPaper.aiChatPaper

MultiFinBen: 금융 LLM 평가를 위한 다국어, 다중모달, 난이도 인식 벤치마크

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

June 16, 2025
저자: Xueqing Peng, Lingfei Qian, Yan Wang, Ruoyu Xiang, Yueru He, Yang Ren, Mingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie
cs.AI

초록

대규모 언어 모델(LLM)의 최근 발전은 금융 자연어 처리(NLP) 및 응용 분야의 진전을 가속화했지만, 기존 벤치마크는 단일 언어 및 단일 모달리티 설정에 국한되어 있으며, 종종 단순한 과제에 지나치게 의존하여 실제 금융 커뮤니케이션의 복잡성을 반영하지 못하고 있다. 본 연구에서는 글로벌 금융 도메인에 맞춰 설계된 최초의 다국어 및 다중 모달리티 벤치마크인 MultiFinBen을 소개한다. 이 벤치마크는 텍스트, 비전, 오디오와 같은 다양한 모달리티와 단일 언어, 이중 언어, 다국어와 같은 언어 설정에서 도메인 특화 과제에 대해 LLM을 평가한다. 또한, 혼합 언어 입력에 대한 복잡한 추론을 요구하는 최초의 다국어 금융 벤치마크인 PolyFiQA-Easy와 PolyFiQA-Expert, 그리고 시각적 텍스트 금융 문서에서 정보를 추출하고 추론하는 능력을 시험하는 최초의 OCR 내장 금융 질의응답 과제인 EnglishOCR과 SpanishOCR을 도입한다. 더 나아가, 기존 데이터셋의 단순한 통합이 아닌 동적이고 난이도 인식 선택 메커니즘을 제안하며, 간결하고 균형 잡힌 벤치마크를 구성한다. 22개의 최첨단 모델에 대한 광범위한 평가 결과, 가장 강력한 모델들도 일반적인 다중 모달리티 및 다국어 능력에도 불구하고 금융 도메인의 복잡한 교차 언어 및 다중 모달리티 과제에 직면할 때 극심한 어려움을 겪는 것으로 나타났다. MultiFinBen은 금융 연구 및 응용 분야에서 투명하고 재현 가능하며 포용적인 진전을 촉진하기 위해 공개적으로 출시되었다.
English
Recent advances in large language models (LLMs) have accelerated progress in financial NLP and applications, yet existing benchmarks remain limited to monolingual and unimodal settings, often over-relying on simple tasks and failing to reflect the complexity of real-world financial communication. We introduce MultiFinBen, the first multilingual and multimodal benchmark tailored to the global financial domain, evaluating LLMs across modalities (text, vision, audio) and linguistic settings (monolingual, bilingual, multilingual) on domain-specific tasks. We introduce two novel tasks, including PolyFiQA-Easy and PolyFiQA-Expert, the first multilingual financial benchmarks requiring models to perform complex reasoning over mixed-language inputs; and EnglishOCR and SpanishOCR, the first OCR-embedded financial QA tasks challenging models to extract and reason over information from visual-text financial documents. Moreover, we propose a dynamic, difficulty-aware selection mechanism and curate a compact, balanced benchmark rather than simple aggregation existing datasets. Extensive evaluation of 22 state-of-the-art models reveals that even the strongest models, despite their general multimodal and multilingual capabilities, struggle dramatically when faced with complex cross-lingual and multimodal tasks in financial domain. MultiFinBen is publicly released to foster transparent, reproducible, and inclusive progress in financial studies and applications.
PDF813June 18, 2025