ChartMimic : Évaluation des capacités de raisonnement intermodal des LMM via la génération de graphiques en code
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
June 14, 2024
Auteurs: Chufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang
cs.AI
Résumé
Nous présentons un nouveau benchmark, ChartMimic, conçu pour évaluer les capacités de génération de code visuellement ancré des grands modèles multimodaux (LMM). ChartMimic utilise des graphiques visuels riches en informations et des instructions textuelles comme entrées, exigeant des LMM qu'ils génèrent le code correspondant pour le rendu des graphiques. ChartMimic comprend 1 000 triplets (figure, instruction, code) soigneusement sélectionnés par des humains, représentant des cas d'utilisation authentiques de graphiques trouvés dans des articles scientifiques couvrant divers domaines (par exemple, Physique, Informatique, Économie, etc.). Ces graphiques englobent 18 types réguliers et 4 types avancés, se diversifiant en 191 sous-catégories. De plus, nous proposons des métriques d'évaluation multi-niveaux pour fournir une évaluation automatique et approfondie du code généré et des graphiques rendus. Contrairement aux benchmarks existants de génération de code, ChartMimic met l'accent sur l'évaluation de la capacité des LMM à harmoniser un mélange de compétences cognitives, comprenant la compréhension visuelle, la génération de code et le raisonnement intermodal. L'évaluation de 3 modèles propriétaires et de 11 modèles open-weight met en évidence les défis substantiels posés par ChartMimic. Même les modèles avancés comme GPT-4V et Claude-3-opus n'obtiennent respectivement que des scores moyens de 73,2 et 53,7, indiquant une marge d'amélioration significative. Nous espérons que ChartMimic inspirera le développement des LMM, faisant progresser la quête de l'intelligence artificielle générale.
English
We introduce a new benchmark, ChartMimic, aimed at assessing the
visually-grounded code generation capabilities of large multimodal models
(LMMs). ChartMimic utilizes information-intensive visual charts and textual
instructions as inputs, requiring LMMs to generate the corresponding code for
chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction,
code) triplets, which represent the authentic chart use cases found in
scientific papers across various domains(e.g., Physics, Computer Science,
Economics, etc). These charts span 18 regular types and 4 advanced types,
diversifying into 191 subcategories. Furthermore, we propose multi-level
evaluation metrics to provide an automatic and thorough assessment of the
output code and the rendered charts. Unlike existing code generation
benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to
harmonize a blend of cognitive capabilities, encompassing visual understanding,
code generation, and cross-modal reasoning. The evaluation of 3 proprietary
models and 11 open-weight models highlights the substantial challenges posed by
ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average
score of 73.2 and 53.7, respectively, indicating significant room for
improvement. We anticipate that ChartMimic will inspire the development of
LMMs, advancing the pursuit of artificial general intelligence.Summary
AI-Generated Summary