Plot2Code: Um Benchmark Abrangente para Avaliação de Modelos de Linguagem Multimodais de Grande Escala na Geração de Código a partir de Gráficos Científicos

Resumo

O progresso notável dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem atraído atenção significativa devido ao seu desempenho superior em contextos visuais. No entanto, suas capacidades em transformar figuras visuais em código executável não foram avaliadas de forma abrangente. Para abordar isso, introduzimos o Plot2Code, um benchmark abrangente de codificação visual projetado para uma avaliação justa e aprofundada dos MLLMs. Coletamos cuidadosamente 132 gráficos matplotlib de alta qualidade, selecionados manualmente, abrangendo seis tipos de gráficos, provenientes de galerias matplotlib publicamente disponíveis. Para cada gráfico, oferecemos cuidadosamente seu código-fonte e uma instrução descritiva resumida pelo GPT-4. Essa abordagem permite que o Plot2Code avalie extensivamente as capacidades de código dos MLLMs em várias modalidades de entrada. Além disso, propomos três métricas de avaliação automática, incluindo taxa de aprovação do código, razão de correspondência de texto e avaliação geral do GPT-4V, para uma avaliação refinada do código gerado e das imagens renderizadas. Em vez de simplesmente julgar como aprovado ou reprovado, empregamos o GPT-4V para fazer uma avaliação geral entre as imagens geradas e as de referência, o que demonstrou ser consistente com a avaliação humana. Os resultados da avaliação, que incluem análises de 14 MLLMs, como o GPT-4V proprietário, o Gemini-Pro e o Mini-Gemini de código aberto, destacam os desafios substanciais apresentados pelo Plot2Code. Com o Plot2Code, revelamos que a maioria dos MLLMs existentes enfrenta dificuldades com a codificação visual para gráficos densos em texto, dependendo fortemente de instruções textuais. Esperamos que os resultados da avaliação do Plot2Code sobre codificação visual orientem o desenvolvimento futuro dos MLLMs. Todos os dados envolvidos com o Plot2Code estão disponíveis em https://huggingface.co/datasets/TencentARC/Plot2Code.

English

The remarkable progress of Multi-modal Large Language Models (MLLMs) has attracted significant attention due to their superior performance in visual contexts. However, their capabilities in turning visual figure to executable code, have not been evaluated thoroughly. To address this, we introduce Plot2Code, a comprehensive visual coding benchmark designed for a fair and in-depth assessment of MLLMs. We carefully collect 132 manually selected high-quality matplotlib plots across six plot types from publicly available matplotlib galleries. For each plot, we carefully offer its source code, and an descriptive instruction summarized by GPT-4. This approach enables Plot2Code to extensively evaluate MLLMs' code capabilities across various input modalities. Furthermore, we propose three automatic evaluation metrics, including code pass rate, text-match ratio, and GPT-4V overall rating, for a fine-grained assessment of the output code and rendered images. Instead of simply judging pass or fail, we employ GPT-4V to make an overall judgement between the generated and reference images, which has been shown to be consistent with human evaluation. The evaluation results, which include analyses of 14 MLLMs such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini, highlight the substantial challenges presented by Plot2Code. With Plot2Code, we reveal that most existing MLLMs struggle with visual coding for text-dense plots, heavily relying on textual instruction. We hope that the evaluation results from Plot2Code on visual coding will guide the future development of MLLMs. All data involved with Plot2Code are available at https://huggingface.co/datasets/TencentARC/Plot2Code.

Plot2Code: Um Benchmark Abrangente para Avaliação de Modelos de Linguagem Multimodais de Grande Escala na Geração de Código a partir de Gráficos Científicos

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

Resumo

Support