ChartMimic : Évaluation des capacités de raisonnement intermodal des LMM via la génération de graphiques en code

papers.abstract

Nous présentons un nouveau benchmark, ChartMimic, conçu pour évaluer les capacités de génération de code visuellement ancré des grands modèles multimodaux (LMM). ChartMimic utilise des graphiques visuels riches en informations et des instructions textuelles comme entrées, exigeant des LMM qu'ils génèrent le code correspondant pour le rendu des graphiques. ChartMimic comprend 1 000 triplets (figure, instruction, code) soigneusement sélectionnés par des humains, représentant des cas d'utilisation authentiques de graphiques trouvés dans des articles scientifiques couvrant divers domaines (par exemple, Physique, Informatique, Économie, etc.). Ces graphiques englobent 18 types réguliers et 4 types avancés, se diversifiant en 191 sous-catégories. De plus, nous proposons des métriques d'évaluation multi-niveaux pour fournir une évaluation automatique et approfondie du code généré et des graphiques rendus. Contrairement aux benchmarks existants de génération de code, ChartMimic met l'accent sur l'évaluation de la capacité des LMM à harmoniser un mélange de compétences cognitives, comprenant la compréhension visuelle, la génération de code et le raisonnement intermodal. L'évaluation de 3 modèles propriétaires et de 11 modèles open-weight met en évidence les défis substantiels posés par ChartMimic. Même les modèles avancés comme GPT-4V et Claude-3-opus n'obtiennent respectivement que des scores moyens de 73,2 et 53,7, indiquant une marge d'amélioration significative. Nous espérons que ChartMimic inspirera le développement des LMM, faisant progresser la quête de l'intelligence artificielle générale.

English

We introduce a new benchmark, ChartMimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models (LMMs). ChartMimic utilizes information-intensive visual charts and textual instructions as inputs, requiring LMMs to generate the corresponding code for chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction, code) triplets, which represent the authentic chart use cases found in scientific papers across various domains(e.g., Physics, Computer Science, Economics, etc). These charts span 18 regular types and 4 advanced types, diversifying into 191 subcategories. Furthermore, we propose multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts. Unlike existing code generation benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to harmonize a blend of cognitive capabilities, encompassing visual understanding, code generation, and cross-modal reasoning. The evaluation of 3 proprietary models and 11 open-weight models highlights the substantial challenges posed by ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average score of 73.2 and 53.7, respectively, indicating significant room for improvement. We anticipate that ChartMimic will inspire the development of LMMs, advancing the pursuit of artificial general intelligence.

ChartMimic : Évaluation des capacités de raisonnement intermodal des LMM via la génération de graphiques en code

ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

papers.abstract

Support