FinMME: Conjunto de Dados de Referência para Avaliação de Raciocínio Multimodal em Finanças
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation
May 30, 2025
Autores: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm experimentado um desenvolvimento rápido nos últimos anos. No entanto, no domínio financeiro, há uma notável falta de conjuntos de dados de avaliação multimodal eficazes e especializados. Para avançar o desenvolvimento de MLLMs no domínio financeiro, introduzimos o FinMME, que abrange mais de 11.000 amostras de alta qualidade de pesquisas financeiras em 18 domínios financeiros e 6 classes de ativos, apresentando 10 tipos principais de gráficos e 21 subtipos. Garantimos a qualidade dos dados por meio de 20 anotadores e mecanismos de validação cuidadosamente projetados. Além disso, desenvolvemos o FinScore, um sistema de avaliação que incorpora penalidades por alucinação e avaliação multidimensional de capacidades para fornecer uma avaliação imparcial. Resultados experimentais extensivos demonstram que até mesmo modelos de última geração, como o GPT-4o, apresentam desempenho insatisfatório no FinMME, destacando sua natureza desafiadora. O benchmark exibe alta robustez, com variações de previsão sob diferentes prompts permanecendo abaixo de 1%, demonstrando confiabilidade superior em comparação com conjuntos de dados existentes. Nosso conjunto de dados e protocolo de avaliação estão disponíveis em https://huggingface.co/datasets/luojunyu/FinMME e https://github.com/luo-junyu/FinMME.
English
Multimodal Large Language Models (MLLMs) have experienced rapid development
in recent years. However, in the financial domain, there is a notable lack of
effective and specialized multimodal evaluation datasets. To advance the
development of MLLMs in the finance domain, we introduce FinMME, encompassing
more than 11,000 high-quality financial research samples across 18 financial
domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We
ensure data quality through 20 annotators and carefully designed validation
mechanisms. Additionally, we develop FinScore, an evaluation system
incorporating hallucination penalties and multi-dimensional capability
assessment to provide an unbiased evaluation. Extensive experimental results
demonstrate that even state-of-the-art models like GPT-4o exhibit
unsatisfactory performance on FinMME, highlighting its challenging nature. The
benchmark exhibits high robustness with prediction variations under different
prompts remaining below 1%, demonstrating superior reliability compared to
existing datasets. Our dataset and evaluation protocol are available at
https://huggingface.co/datasets/luojunyu/FinMME and
https://github.com/luo-junyu/FinMME.