ChatPaper.aiChatPaper

FinMME : Base de données de référence pour l'évaluation du raisonnement multi-modal en finance

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30, 2025
Auteurs: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
cs.AI

Résumé

Les modèles de langage multimodaux de grande envergure (MLLMs) ont connu un développement rapide ces dernières années. Cependant, dans le domaine financier, il existe un manque notable de jeux de données d'évaluation multimodaux spécialisés et efficaces. Pour faire progresser le développement des MLLMs dans le domaine de la finance, nous introduisons FinMME, qui englobe plus de 11 000 échantillons de recherche financière de haute qualité couvrant 18 domaines financiers et 6 classes d'actifs, avec 10 types de graphiques principaux et 21 sous-types. Nous assurons la qualité des données grâce à 20 annotateurs et à des mécanismes de validation soigneusement conçus. De plus, nous développons FinScore, un système d'évaluation intégrant des pénalités pour les hallucinations et une évaluation multidimensionnelle des capacités pour fournir une évaluation impartiale. Les résultats expérimentaux approfondis démontrent que même les modèles de pointe comme GPT-4o présentent des performances insatisfaisantes sur FinMME, soulignant son caractère exigeant. Le benchmark présente une robustesse élevée, avec des variations de prédiction sous différents prompts restant inférieures à 1 %, démontrant une fiabilité supérieure par rapport aux jeux de données existants. Notre jeu de données et protocole d'évaluation sont disponibles à l'adresse https://huggingface.co/datasets/luojunyu/FinMME et https://github.com/luo-junyu/FinMME.
English
Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.
PDF343June 4, 2025