Plot2Code: 과학적 플롯에서 코드 생성을 위한 다중 모달 대형 언어 모델 평가를 위한 포괄적 벤치마크
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
May 13, 2024
저자: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo
cs.AI
초록
다중 모달 대형 언어 모델(MLLMs)의 놀라운 발전은 시각적 맥락에서의 우수한 성능으로 인해 상당한 주목을 받고 있습니다. 그러나 이러한 모델들이 시각적 도표를 실행 가능한 코드로 변환하는 능력은 철저히 평가되지 않았습니다. 이를 해결하기 위해, 우리는 MLLMs의 공정하고 심층적인 평가를 위해 설계된 포괄적인 시각적 코딩 벤치마크인 Plot2Code를 소개합니다. 우리는 공개적으로 이용 가능한 matplotlib 갤러리에서 6가지 플롯 유형에 걸쳐 132개의 수작업으로 선별된 고품질 matplotlib 플롯을 신중하게 수집했습니다. 각 플롯에 대해, 우리는 소스 코드와 GPT-4가 요약한 설명 지침을 제공합니다. 이 접근 방식은 Plot2Code가 다양한 입력 모달리티에 걸쳐 MLLMs의 코드 능력을 광범위하게 평가할 수 있게 합니다. 더 나아가, 우리는 코드 통과율, 텍스트 일치 비율, GPT-4V 전체 평가 등 세 가지 자동 평가 지표를 제안하여 출력 코드와 렌더링된 이미지에 대한 세밀한 평가를 가능하게 합니다. 단순히 통과 또는 실패를 판단하는 대신, 우리는 GPT-4V를 사용하여 생성된 이미지와 참조 이미지 간의 전체적인 판단을 내리도록 하며, 이는 인간 평가와 일치하는 것으로 나타났습니다. GPT-4V, Gemini-Pro, 오픈소스 Mini-Gemini 등 14개의 MLLMs를 분석한 평가 결과는 Plot2Code가 제시하는 상당한 도전 과제를 강조합니다. Plot2Code를 통해, 우리는 대부분의 기존 MLLMs가 텍스트가 많은 플롯에 대한 시각적 코딩에서 어려움을 겪으며, 텍스트 지침에 크게 의존한다는 것을 밝혀냈습니다. 우리는 Plot2Code의 시각적 코딩에 대한 평가 결과가 MLLMs의 미래 개발을 안내할 수 있기를 바랍니다. Plot2Code와 관련된 모든 데이터는 https://huggingface.co/datasets/TencentARC/Plot2Code에서 이용 가능합니다.
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
attracted significant attention due to their superior performance in visual
contexts. However, their capabilities in turning visual figure to executable
code, have not been evaluated thoroughly. To address this, we introduce
Plot2Code, a comprehensive visual coding benchmark designed for a fair and
in-depth assessment of MLLMs. We carefully collect 132 manually selected
high-quality matplotlib plots across six plot types from publicly available
matplotlib galleries. For each plot, we carefully offer its source code, and an
descriptive instruction summarized by GPT-4. This approach enables Plot2Code to
extensively evaluate MLLMs' code capabilities across various input modalities.
Furthermore, we propose three automatic evaluation metrics, including code pass
rate, text-match ratio, and GPT-4V overall rating, for a fine-grained
assessment of the output code and rendered images. Instead of simply judging
pass or fail, we employ GPT-4V to make an overall judgement between the
generated and reference images, which has been shown to be consistent with
human evaluation. The evaluation results, which include analyses of 14 MLLMs
such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini,
highlight the substantial challenges presented by Plot2Code. With Plot2Code, we
reveal that most existing MLLMs struggle with visual coding for text-dense
plots, heavily relying on textual instruction. We hope that the evaluation
results from Plot2Code on visual coding will guide the future development of
MLLMs. All data involved with Plot2Code are available at
https://huggingface.co/datasets/TencentARC/Plot2Code.Summary
AI-Generated Summary