ChatPaper.aiChatPaper

FinMME: Бенчмарк-набор данных для оценки мультимодального анализа в финансовой сфере

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30, 2025
Авторы: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo
cs.AI

Аннотация

Мультимодальные большие языковые модели (MLLMs) в последние годы переживают стремительное развитие. Однако в финансовой сфере наблюдается заметный недостаток эффективных и специализированных мультимодальных наборов данных для оценки. Для продвижения разработки MLLM в финансовой области мы представляем FinMME, включающий более 11 000 высококачественных образцов финансовых исследований из 18 финансовых областей и 6 классов активов, с использованием 10 основных типов графиков и 21 подтипа. Мы обеспечиваем качество данных с помощью 20 аннотаторов и тщательно разработанных механизмов валидации. Кроме того, мы разработали FinScore — систему оценки, включающую штрафы за галлюцинации и многомерную оценку способностей для обеспечения объективной оценки. Обширные экспериментальные результаты показывают, что даже передовые модели, такие как GPT-4o, демонстрируют неудовлетворительную производительность на FinMME, подчеркивая его сложный характер. Бенчмарк демонстрирует высокую устойчивость, с вариациями предсказаний при различных промптах, остающимися ниже 1%, что свидетельствует о превосходной надежности по сравнению с существующими наборами данных. Наш набор данных и протокол оценки доступны по адресам https://huggingface.co/datasets/luojunyu/FinMME и https://github.com/luo-junyu/FinMME.
English
Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.
PDF343June 4, 2025