Plot2Code: Un punto de referencia integral para evaluar modelos de lenguaje multimodal de gran escala en la generación de código a partir de gráficos científicos
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots
May 13, 2024
Autores: Chengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo
cs.AI
Resumen
El notable progreso de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) ha atraído una atención significativa debido a su rendimiento superior en contextos visuales. Sin embargo, sus capacidades para convertir figuras visuales en código ejecutable no han sido evaluadas exhaustivamente. Para abordar esto, presentamos Plot2Code, un benchmark integral de codificación visual diseñado para una evaluación justa y profunda de los MLLMs. Recopilamos cuidadosamente 132 gráficos de alta calidad seleccionados manualmente en matplotlib, abarcando seis tipos de gráficos, provenientes de galerías públicas de matplotlib. Para cada gráfico, proporcionamos su código fuente y una instrucción descriptiva resumida por GPT-4. Este enfoque permite que Plot2Code evalúe extensamente las capacidades de codificación de los MLLMs en diversas modalidades de entrada. Además, proponemos tres métricas de evaluación automática, que incluyen la tasa de aprobación del código, la proporción de coincidencia de texto y la calificación general de GPT-4V, para una evaluación detallada del código generado y las imágenes renderizadas. En lugar de simplemente juzgar como aprobado o fallido, empleamos GPT-4V para realizar un juicio general entre las imágenes generadas y las de referencia, lo cual ha demostrado ser consistente con la evaluación humana. Los resultados de la evaluación, que incluyen análisis de 14 MLLMs como el propietario GPT-4V, Gemini-Pro y el de código abierto Mini-Gemini, destacan los desafíos sustanciales que presenta Plot2Code. Con Plot2Code, revelamos que la mayoría de los MLLMs existentes tienen dificultades con la codificación visual para gráficos con mucho texto, dependiendo en gran medida de las instrucciones textuales. Esperamos que los resultados de la evaluación de Plot2Code sobre la codificación visual guíen el desarrollo futuro de los MLLMs. Todos los datos relacionados con Plot2Code están disponibles en https://huggingface.co/datasets/TencentARC/Plot2Code.
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
attracted significant attention due to their superior performance in visual
contexts. However, their capabilities in turning visual figure to executable
code, have not been evaluated thoroughly. To address this, we introduce
Plot2Code, a comprehensive visual coding benchmark designed for a fair and
in-depth assessment of MLLMs. We carefully collect 132 manually selected
high-quality matplotlib plots across six plot types from publicly available
matplotlib galleries. For each plot, we carefully offer its source code, and an
descriptive instruction summarized by GPT-4. This approach enables Plot2Code to
extensively evaluate MLLMs' code capabilities across various input modalities.
Furthermore, we propose three automatic evaluation metrics, including code pass
rate, text-match ratio, and GPT-4V overall rating, for a fine-grained
assessment of the output code and rendered images. Instead of simply judging
pass or fail, we employ GPT-4V to make an overall judgement between the
generated and reference images, which has been shown to be consistent with
human evaluation. The evaluation results, which include analyses of 14 MLLMs
such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini,
highlight the substantial challenges presented by Plot2Code. With Plot2Code, we
reveal that most existing MLLMs struggle with visual coding for text-dense
plots, heavily relying on textual instruction. We hope that the evaluation
results from Plot2Code on visual coding will guide the future development of
MLLMs. All data involved with Plot2Code are available at
https://huggingface.co/datasets/TencentARC/Plot2Code.Summary
AI-Generated Summary