Plot2Code: 科学プロットからのコード生成におけるマルチモーダル大規模言語モデルを評価するための包括的ベンチマーク
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
May 13, 2024
著者: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)の顕著な進歩は、視覚的コンテキストにおける優れたパフォーマンスにより、大きな注目を集めています。しかし、視覚的な図を実行可能なコードに変換する能力については、十分に評価されていません。この問題に対処するため、我々はMLLMsの公平かつ詳細な評価を目的とした包括的な視覚的コーディングベンチマーク「Plot2Code」を導入します。Plot2Codeでは、公開されているmatplotlibギャラリーから6種類のプロットタイプにわたる132の手作業で選ばれた高品質なmatplotlibプロットを慎重に収集しました。各プロットに対して、そのソースコードとGPT-4によって要約された説明文を提供します。このアプローチにより、Plot2Codeは様々な入力モダリティにわたるMLLMsのコード能力を広範に評価することが可能となります。
さらに、出力コードとレンダリングされた画像の詳細な評価のために、コード通過率、テキストマッチ率、GPT-4Vの総合評価という3つの自動評価指標を提案します。単に合格か不合格かを判断するのではなく、生成された画像と参照画像の間でGPT-4Vを用いて総合的な判断を行います。この方法は、人間の評価と一致することが示されています。評価結果には、プロプライエタリなGPT-4VやGemini-Pro、オープンソースのMini-Geminiなど14のMLLMsの分析が含まれており、Plot2Codeが提示する大きな課題を浮き彫りにしています。Plot2Codeを通じて、既存のMLLMsの多くがテキスト密度の高いプロットの視覚的コーディングに苦戦し、テキスト指示に大きく依存していることが明らかになりました。Plot2Codeによる視覚的コーディングの評価結果が、今後のMLLMsの開発を導くことを期待しています。Plot2Codeに関連するすべてのデータは、https://huggingface.co/datasets/TencentARC/Plot2Code で公開されています。
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
attracted significant attention due to their superior performance in visual
contexts. However, their capabilities in turning visual figure to executable
code, have not been evaluated thoroughly. To address this, we introduce
Plot2Code, a comprehensive visual coding benchmark designed for a fair and
in-depth assessment of MLLMs. We carefully collect 132 manually selected
high-quality matplotlib plots across six plot types from publicly available
matplotlib galleries. For each plot, we carefully offer its source code, and an
descriptive instruction summarized by GPT-4. This approach enables Plot2Code to
extensively evaluate MLLMs' code capabilities across various input modalities.
Furthermore, we propose three automatic evaluation metrics, including code pass
rate, text-match ratio, and GPT-4V overall rating, for a fine-grained
assessment of the output code and rendered images. Instead of simply judging
pass or fail, we employ GPT-4V to make an overall judgement between the
generated and reference images, which has been shown to be consistent with
human evaluation. The evaluation results, which include analyses of 14 MLLMs
such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini,
highlight the substantial challenges presented by Plot2Code. With Plot2Code, we
reveal that most existing MLLMs struggle with visual coding for text-dense
plots, heavily relying on textual instruction. We hope that the evaluation
results from Plot2Code on visual coding will guide the future development of
MLLMs. All data involved with Plot2Code are available at
https://huggingface.co/datasets/TencentARC/Plot2Code.Summary
AI-Generated Summary