ChatPaper.aiChatPaper

FinMME: Benchmark-Datensatz für die Bewertung finanzieller Multi-Modaler Argumentation

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30, 2025
Autoren: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben in den letzten Jahren eine rasante Entwicklung erfahren. Im Finanzbereich besteht jedoch ein bemerkenswerter Mangel an effektiven und spezialisierten multimodalen Evaluierungsdatensätzen. Um die Entwicklung von MLLMs im Finanzbereich voranzutreiben, stellen wir FinMME vor, das mehr als 11.000 hochwertige Finanzforschungsproben aus 18 Finanzbereichen und 6 Anlageklassen umfasst und 10 Haupttypen sowie 21 Untertypen von Diagrammen beinhaltet. Wir sichern die Datenqualität durch 20 Annotatoren und sorgfältig gestaltete Validierungsmechanismen. Zudem entwickeln wir FinScore, ein Bewertungssystem, das Halluzinationsstrafen und mehrdimensionale Fähigkeitsbewertungen integriert, um eine unvoreingenommene Bewertung zu ermöglichen. Umfangreiche experimentelle Ergebnisse zeigen, dass selbst state-of-the-art Modelle wie GPT-4o auf FinMME unbefriedigende Leistungen erbringen, was dessen anspruchsvolle Natur unterstreicht. Der Benchmark weist eine hohe Robustheit auf, wobei die Vorhersagevariationen unter verschiedenen Prompts unter 1 % bleiben, was eine überlegene Zuverlässigkeit im Vergleich zu bestehenden Datensätzen demonstriert. Unser Datensatz und das Evaluierungsprotokoll sind verfügbar unter https://huggingface.co/datasets/luojunyu/FinMME und https://github.com/luo-junyu/FinMME.
English
Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.
PDF343June 4, 2025