FinMME: Benchmarkdataset voor evaluatie van financieel multi-modale redenering
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
May 30, 2025
Auteurs: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) hebben de afgelopen jaren een snelle ontwikkeling doorgemaakt. In het financiële domein is er echter een opvallend gebrek aan effectieve en gespecialiseerde multimodale evaluatiedatasets. Om de ontwikkeling van MLLMs in het financiële domein te bevorderen, introduceren wij FinMME, dat meer dan 11.000 hoogwaardige financiële onderzoeksmonsters omvat uit 18 financiële domeinen en 6 activaklassen, met 10 belangrijke grafiektypen en 21 subtypes. Wij zorgen voor data kwaliteit door middel van 20 annotators en zorgvuldig ontworpen validatiemechanismen. Daarnaast ontwikkelen wij FinScore, een evaluatiesysteem dat hallucinatieboetes en multidimensionale capaciteitsbeoordeling omvat om een onbevooroordeelde evaluatie te bieden. Uitgebreide experimentele resultaten tonen aan dat zelfs state-of-the-art modellen zoals GPT-4o onbevredigende prestaties leveren op FinMME, wat de uitdagende aard ervan benadrukt. De benchmark vertoont een hoge robuustheid met voorspellingsvariaties onder verschillende prompts die onder de 1% blijven, wat een superieure betrouwbaarheid aantoont in vergelijking met bestaande datasets. Onze dataset en evaluatieprotocol zijn beschikbaar op https://huggingface.co/datasets/luojunyu/FinMME en https://github.com/luo-junyu/FinMME.
English
Multimodal Large Language Models (MLLMs) have experienced rapid development
in recent years. However, in the financial domain, there is a notable lack of
effective and specialized multimodal evaluation datasets. To advance the
development of MLLMs in the finance domain, we introduce FinMME, encompassing
more than 11,000 high-quality financial research samples across 18 financial
domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We
ensure data quality through 20 annotators and carefully designed validation
mechanisms. Additionally, we develop FinScore, an evaluation system
incorporating hallucination penalties and multi-dimensional capability
assessment to provide an unbiased evaluation. Extensive experimental results
demonstrate that even state-of-the-art models like GPT-4o exhibit
unsatisfactory performance on FinMME, highlighting its challenging nature. The
benchmark exhibits high robustness with prediction variations under different
prompts remaining below 1%, demonstrating superior reliability compared to
existing datasets. Our dataset and evaluation protocol are available at
https://huggingface.co/datasets/luojunyu/FinMME and
https://github.com/luo-junyu/FinMME.