Plot2Code: Een Uitgebreide Benchmark voor de Evaluatie van Multi-modale Grote Taalmodellen bij Codegeneratie vanuit Wetenschappelijke Grafieken
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
May 13, 2024
Auteurs: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo
cs.AI
Samenvatting
De opmerkelijke vooruitgang van Multi-modale Large Language Models (MLLMs) heeft aanzienlijke aandacht getrokken vanwege hun superieure prestaties in visuele contexten. Hun vermogen om visuele figuren om te zetten in uitvoerbare code is echter nog niet grondig geëvalueerd. Om dit aan te pakken, introduceren we Plot2Code, een uitgebreide visuele codeerbenchmark die is ontworpen voor een eerlijke en diepgaande beoordeling van MLLMs. We hebben zorgvuldig 132 handmatig geselecteerde hoogwaardige matplotlib-plots verzameld, verdeeld over zes plottypes, afkomstig uit openbaar beschikbare matplotlib-galerijen. Voor elke plot bieden we zorgvuldig de broncode en een beschrijvende instructie samengevat door GPT-4. Deze aanpak stelt Plot2Code in staat om de codeervaardigheden van MLLMs uitgebreid te evalueren over verschillende invoermodaliteiten. Bovendien stellen we drie automatische evaluatiemetrics voor, waaronder de code-slaagratio, de tekst-matchratio en de GPT-4V-algemene beoordeling, voor een gedetailleerde beoordeling van de uitvoercode en gerenderde afbeeldingen. In plaats van simpelweg te oordelen of de code slaagt of faalt, gebruiken we GPT-4V om een algemeen oordeel te vellen tussen de gegenereerde en referentie-afbeeldingen, wat consistent is gebleken met menselijke evaluatie. De evaluatieresultaten, waaronder analyses van 14 MLLMs zoals de propriëtaire GPT-4V, Gemini-Pro en de open-source Mini-Gemini, benadrukken de aanzienlijke uitdagingen die Plot2Code biedt. Met Plot2Code onthullen we dat de meeste bestaande MLLMs moeite hebben met visueel coderen voor tekstrijke plots, waarbij ze sterk afhankelijk zijn van tekstuele instructies. We hopen dat de evaluatieresultaten van Plot2Code op het gebied van visueel coderen de toekomstige ontwikkeling van MLLMs zullen sturen. Alle gegevens die bij Plot2Code betrokken zijn, zijn beschikbaar op https://huggingface.co/datasets/TencentARC/Plot2Code.
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
attracted significant attention due to their superior performance in visual
contexts. However, their capabilities in turning visual figure to executable
code, have not been evaluated thoroughly. To address this, we introduce
Plot2Code, a comprehensive visual coding benchmark designed for a fair and
in-depth assessment of MLLMs. We carefully collect 132 manually selected
high-quality matplotlib plots across six plot types from publicly available
matplotlib galleries. For each plot, we carefully offer its source code, and an
descriptive instruction summarized by GPT-4. This approach enables Plot2Code to
extensively evaluate MLLMs' code capabilities across various input modalities.
Furthermore, we propose three automatic evaluation metrics, including code pass
rate, text-match ratio, and GPT-4V overall rating, for a fine-grained
assessment of the output code and rendered images. Instead of simply judging
pass or fail, we employ GPT-4V to make an overall judgement between the
generated and reference images, which has been shown to be consistent with
human evaluation. The evaluation results, which include analyses of 14 MLLMs
such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini,
highlight the substantial challenges presented by Plot2Code. With Plot2Code, we
reveal that most existing MLLMs struggle with visual coding for text-dense
plots, heavily relying on textual instruction. We hope that the evaluation
results from Plot2Code on visual coding will guide the future development of
MLLMs. All data involved with Plot2Code are available at
https://huggingface.co/datasets/TencentARC/Plot2Code.