Plot2Code : Un Benchmark Complet pour l'Évaluation des Modèles de Langage Multimodaux de Grande Taille dans la Génération de Code à partir de Graphiques Scientifiques
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
May 13, 2024
Auteurs: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo
cs.AI
Résumé
Les progrès remarquables des modèles de langage multi-modaux (MLLMs) ont suscité une attention considérable en raison de leurs performances supérieures dans des contextes visuels. Cependant, leurs capacités à transformer des figures visuelles en code exécutable n'ont pas été évaluées de manière approfondie. Pour répondre à cela, nous introduisons Plot2Code, un benchmark complet de codage visuel conçu pour une évaluation juste et détaillée des MLLMs. Nous avons soigneusement collecté 132 graphiques matplotlib de haute qualité, sélectionnés manuellement, couvrant six types de graphiques provenant de galeries matplotlib publiquement accessibles. Pour chaque graphique, nous fournissons attentivement son code source ainsi qu'une instruction descriptive résumée par GPT-4. Cette approche permet à Plot2Code d'évaluer de manière extensive les capacités de codage des MLLMs à travers diverses modalités d'entrée. De plus, nous proposons trois métriques d'évaluation automatiques, incluant le taux de réussite du code, le ratio de correspondance textuelle et l'évaluation globale par GPT-4V, pour une évaluation fine du code généré et des images rendues. Au lieu de simplement juger en termes de réussite ou d'échec, nous utilisons GPT-4V pour porter un jugement global entre les images générées et les images de référence, ce qui s'est avéré cohérent avec l'évaluation humaine. Les résultats de l'évaluation, qui incluent des analyses de 14 MLLMs tels que le GPT-4V propriétaire, Gemini-Pro et le Mini-Gemini open-source, mettent en évidence les défis substantiels posés par Plot2Code. Avec Plot2Code, nous révélons que la plupart des MLLMs existants peinent à coder visuellement des graphiques riches en texte, dépendant fortement des instructions textuelles. Nous espérons que les résultats d'évaluation de Plot2Code sur le codage visuel guideront le développement futur des MLLMs. Toutes les données associées à Plot2Code sont disponibles à l'adresse suivante : https://huggingface.co/datasets/TencentARC/Plot2Code.
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
attracted significant attention due to their superior performance in visual
contexts. However, their capabilities in turning visual figure to executable
code, have not been evaluated thoroughly. To address this, we introduce
Plot2Code, a comprehensive visual coding benchmark designed for a fair and
in-depth assessment of MLLMs. We carefully collect 132 manually selected
high-quality matplotlib plots across six plot types from publicly available
matplotlib galleries. For each plot, we carefully offer its source code, and an
descriptive instruction summarized by GPT-4. This approach enables Plot2Code to
extensively evaluate MLLMs' code capabilities across various input modalities.
Furthermore, we propose three automatic evaluation metrics, including code pass
rate, text-match ratio, and GPT-4V overall rating, for a fine-grained
assessment of the output code and rendered images. Instead of simply judging
pass or fail, we employ GPT-4V to make an overall judgement between the
generated and reference images, which has been shown to be consistent with
human evaluation. The evaluation results, which include analyses of 14 MLLMs
such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini,
highlight the substantial challenges presented by Plot2Code. With Plot2Code, we
reveal that most existing MLLMs struggle with visual coding for text-dense
plots, heavily relying on textual instruction. We hope that the evaluation
results from Plot2Code on visual coding will guide the future development of
MLLMs. All data involved with Plot2Code are available at
https://huggingface.co/datasets/TencentARC/Plot2Code.Summary
AI-Generated Summary