ChatPaper.aiChatPaper

CharXiv : Cartographie des lacunes dans la compréhension réaliste des graphiques par les LLM multimodaux

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

June 26, 2024
Auteurs: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI

Résumé

La compréhension des graphiques joue un rôle crucial lors de l'application des modèles de langage multimodaux de grande taille (MLLMs) à des tâches réelles telles que l'analyse d'articles scientifiques ou de rapports financiers. Cependant, les ensembles de données existants se concentrent souvent sur des graphiques simplifiés et homogènes avec des questions basées sur des modèles, ce qui conduit à une mesure trop optimiste des progrès. Nous démontrons que bien que les modèles open-source semblent surpasser les modèles propriétaires robustes sur ces benchmarks, un simple test de résistance avec des graphiques ou des questions légèrement différents peut détériorer les performances jusqu'à 34,5%. Dans ce travail, nous proposons CharXiv, une suite d'évaluation complète impliquant 2 323 graphiques naturels, complexes et divers provenant d'articles arXiv. CharXiv inclut deux types de questions : 1) des questions descriptives sur l'examen des éléments de base du graphique et 2) des questions de raisonnement qui nécessitent la synthèse d'informations à travers des éléments visuels complexes du graphique. Pour garantir la qualité, tous les graphiques et questions sont sélectionnés, organisés et vérifiés manuellement par des experts humains. Nos résultats révèlent un écart substantiel et précédemment sous-estimé entre les compétences de raisonnement du modèle propriétaire le plus performant (c'est-à-dire GPT-4o), qui atteint une précision de 47,1%, et du modèle open-source le plus performant (c'est-à-dire InternVL Chat V1.5), qui atteint 29,2%. Tous les modèles sont loin derrière la performance humaine de 80,5%, soulignant les faiblesses dans les capacités de compréhension des graphiques des MLLMs existants. Nous espérons que CharXiv facilitera les recherches futures sur la compréhension des graphiques par les MLLMs en fournissant une mesure plus réaliste et fidèle des progrès. Page du projet et classement : https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, leading to an over-optimistic measure of progress. We demonstrate that although open-source models can appear to outperform strong proprietary models on these benchmarks, a simple stress test with slightly different charts or questions can deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a comprehensive evaluation suite involving 2,323 natural, challenging, and diverse charts from arXiv papers. CharXiv includes two types of questions: 1) descriptive questions about examining basic chart elements and 2) reasoning questions that require synthesizing information across complex visual elements in the chart. To ensure quality, all charts and questions are handpicked, curated, and verified by human experts. Our results reveal a substantial, previously underestimated gap between the reasoning skills of the strongest proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%. All models lag far behind human performance of 80.5%, underscoring weaknesses in the chart understanding capabilities of existing MLLMs. We hope CharXiv facilitates future research on MLLM chart understanding by providing a more realistic and faithful measure of progress. Project page and leaderboard: https://charxiv.github.io/

Summary

AI-Generated Summary

PDF302November 29, 2024