Plot2Code: Ein umfassender Maßstab zur Bewertung von multimodalen großen Sprachmodellen bei der Codegenerierung aus wissenschaftlichen Diagrammen.
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
May 13, 2024
Autoren: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo
cs.AI
Zusammenfassung
Der bemerkenswerte Fortschritt von Multi-modalen Large Language Models (MLLMs) hat aufgrund ihrer überragenden Leistung in visuellen Kontexten erhebliche Aufmerksamkeit auf sich gezogen. Allerdings wurden ihre Fähigkeiten, visuelle Abbildungen in ausführbaren Code umzuwandeln, noch nicht gründlich bewertet. Um diesem Thema gerecht zu werden, stellen wir Plot2Code vor, einen umfassenden visuellen Codierungsbenchmark, der für eine faire und eingehende Bewertung von MLLMs entwickelt wurde. Wir haben sorgfältig 132 manuell ausgewählte hochwertige matplotlib-Plots aus sechs Plot-Typen aus öffentlich verfügbaren matplotlib-Galerien gesammelt. Für jeden Plot bieten wir sorgfältig den Quellcode und eine beschreibende Anleitung, die von GPT-4 zusammengefasst wurde. Dieser Ansatz ermöglicht es Plot2Code, die Code-Fähigkeiten von MLLMs umfassend über verschiedene Eingabemodalitäten zu bewerten. Darüber hinaus schlagen wir drei automatische Bewertungsmetriken vor, darunter die Code-Bestehensrate, das Textübereinstimmungsverhältnis und die Gesamtbewertung von GPT-4V, für eine fein abgestufte Bewertung des Ausgabecodes und der gerenderten Bilder. Anstatt nur bestehen oder nicht bestehen zu beurteilen, verwenden wir GPT-4V, um eine Gesamtbeurteilung zwischen den generierten und Referenzbildern abzugeben, was sich als konsistent mit der menschlichen Bewertung erwiesen hat. Die Evaluierungsergebnisse, die Analysen von 14 MLLMs wie dem proprietären GPT-4V, Gemini-Pro und dem Open-Source Mini-Gemini umfassen, heben die erheblichen Herausforderungen hervor, die Plot2Code darstellt. Mit Plot2Code zeigen wir auf, dass die meisten bestehenden MLLMs Schwierigkeiten mit der visuellen Codierung für textreiche Plots haben und stark auf textuelle Anweisungen angewiesen sind. Wir hoffen, dass die Evaluierungsergebnisse von Plot2Code zur visuellen Codierung die zukünftige Entwicklung von MLLMs lenken werden. Alle Daten, die mit Plot2Code verbunden sind, sind unter https://huggingface.co/datasets/TencentARC/Plot2Code verfügbar.
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
attracted significant attention due to their superior performance in visual
contexts. However, their capabilities in turning visual figure to executable
code, have not been evaluated thoroughly. To address this, we introduce
Plot2Code, a comprehensive visual coding benchmark designed for a fair and
in-depth assessment of MLLMs. We carefully collect 132 manually selected
high-quality matplotlib plots across six plot types from publicly available
matplotlib galleries. For each plot, we carefully offer its source code, and an
descriptive instruction summarized by GPT-4. This approach enables Plot2Code to
extensively evaluate MLLMs' code capabilities across various input modalities.
Furthermore, we propose three automatic evaluation metrics, including code pass
rate, text-match ratio, and GPT-4V overall rating, for a fine-grained
assessment of the output code and rendered images. Instead of simply judging
pass or fail, we employ GPT-4V to make an overall judgement between the
generated and reference images, which has been shown to be consistent with
human evaluation. The evaluation results, which include analyses of 14 MLLMs
such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini,
highlight the substantial challenges presented by Plot2Code. With Plot2Code, we
reveal that most existing MLLMs struggle with visual coding for text-dense
plots, heavily relying on textual instruction. We hope that the evaluation
results from Plot2Code on visual coding will guide the future development of
MLLMs. All data involved with Plot2Code are available at
https://huggingface.co/datasets/TencentARC/Plot2Code.Summary
AI-Generated Summary