FinMME: Conjunto de Datos de Referencia para la Evaluación del Razonamiento Multi-Modal en el Ámbito Financiero
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
May 30, 2025
Autores: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado un desarrollo acelerado en los últimos años. Sin embargo, en el ámbito financiero, existe una notable carencia de conjuntos de datos de evaluación multimodal efectivos y especializados. Para impulsar el desarrollo de los MLLMs en el dominio financiero, presentamos FinMME, que abarca más de 11,000 muestras de investigación financiera de alta calidad en 18 dominios financieros y 6 clases de activos, incluyendo 10 tipos principales de gráficos y 21 subtipos. Garantizamos la calidad de los datos mediante 20 anotadores y mecanismos de validación cuidadosamente diseñados. Además, desarrollamos FinScore, un sistema de evaluación que incorpora penalizaciones por alucinaciones y una evaluación multidimensional de capacidades para proporcionar una valoración imparcial. Los resultados experimentales extensivos demuestran que incluso modelos de última generación como GPT-4o muestran un rendimiento insatisfactorio en FinMME, resaltando su naturaleza desafiante. El benchmark exhibe una alta robustez, con variaciones en las predicciones bajo diferentes indicaciones que se mantienen por debajo del 1%, demostrando una fiabilidad superior en comparación con los conjuntos de datos existentes. Nuestro conjunto de datos y protocolo de evaluación están disponibles en https://huggingface.co/datasets/luojunyu/FinMME y https://github.com/luo-junyu/FinMME.
English
Multimodal Large Language Models (MLLMs) have experienced rapid development
in recent years. However, in the financial domain, there is a notable lack of
effective and specialized multimodal evaluation datasets. To advance the
development of MLLMs in the finance domain, we introduce FinMME, encompassing
more than 11,000 high-quality financial research samples across 18 financial
domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We
ensure data quality through 20 annotators and carefully designed validation
mechanisms. Additionally, we develop FinScore, an evaluation system
incorporating hallucination penalties and multi-dimensional capability
assessment to provide an unbiased evaluation. Extensive experimental results
demonstrate that even state-of-the-art models like GPT-4o exhibit
unsatisfactory performance on FinMME, highlighting its challenging nature. The
benchmark exhibits high robustness with prediction variations under different
prompts remaining below 1%, demonstrating superior reliability compared to
existing datasets. Our dataset and evaluation protocol are available at
https://huggingface.co/datasets/luojunyu/FinMME and
https://github.com/luo-junyu/FinMME.