FinMME: Dataset di Benchmark per la Valutazione del Ragionamento Multi-Modale in Ambito Finanziario
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
May 30, 2025
Autori: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno registrato uno sviluppo rapido negli ultimi anni. Tuttavia, nel dominio finanziario, si riscontra una marcata carenza di dataset di valutazione multimodali efficaci e specializzati. Per favorire lo sviluppo degli MLLMs in ambito finanziario, introduciamo FinMME, che comprende oltre 11.000 campioni di alta qualità provenienti da ricerche finanziarie, distribuiti in 18 domini finanziari e 6 classi di asset, con 10 tipologie principali di grafici e 21 sottotipi. Garantiamo la qualità dei dati attraverso 20 annotatori e meccanismi di validazione accuratamente progettati. Inoltre, sviluppiamo FinScore, un sistema di valutazione che incorpora penalità per le allucinazioni e una valutazione multidimensionale delle capacità, al fine di fornire una valutazione imparziale. I risultati sperimentali estesi dimostrano che anche modelli all'avanguardia come GPT-4o mostrano prestazioni insoddisfacenti su FinMME, evidenziandone la natura impegnativa. Il benchmark mostra un'elevata robustezza, con variazioni nelle previsioni sotto diversi prompt che rimangono al di sotto dell'1%, dimostrando un'affidabilità superiore rispetto ai dataset esistenti. Il nostro dataset e il protocollo di valutazione sono disponibili su https://huggingface.co/datasets/luojunyu/FinMME e https://github.com/luo-junyu/FinMME.
English
Multimodal Large Language Models (MLLMs) have experienced rapid development
in recent years. However, in the financial domain, there is a notable lack of
effective and specialized multimodal evaluation datasets. To advance the
development of MLLMs in the finance domain, we introduce FinMME, encompassing
more than 11,000 high-quality financial research samples across 18 financial
domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We
ensure data quality through 20 annotators and carefully designed validation
mechanisms. Additionally, we develop FinScore, an evaluation system
incorporating hallucination penalties and multi-dimensional capability
assessment to provide an unbiased evaluation. Extensive experimental results
demonstrate that even state-of-the-art models like GPT-4o exhibit
unsatisfactory performance on FinMME, highlighting its challenging nature. The
benchmark exhibits high robustness with prediction variations under different
prompts remaining below 1%, demonstrating superior reliability compared to
existing datasets. Our dataset and evaluation protocol are available at
https://huggingface.co/datasets/luojunyu/FinMME and
https://github.com/luo-junyu/FinMME.