Plot2Code: Комплексный бенчмарк для оценки мультимодальных крупномасштабных языковых моделей в генерации кода из научных графиков.

Аннотация

Замечательный прогресс Многомодельных Больших Языковых Моделей (MLLMs) привлек значительное внимание благодаря их выдающейся производительности в визуальных контекстах. Однако их способности преобразовывать визуальные фигуры в исполнимый код не были тщательно оценены. Для решения этой проблемы мы представляем Plot2Code, комплексный бенчмарк визуального кодирования, разработанный для справедливой и глубокой оценки MLLMs. Мы тщательно собрали 132 вручную отобранных высококачественных графиков matplotlib из шести типов графиков из общедоступных галерей matplotlib. Для каждого графика мы внимательно предлагаем его исходный код и описательную инструкцию, подготовленную GPT-4. Такой подход позволяет Plot2Code обширно оценить возможности MLLMs в написании кода для различных входных модалностей. Кроме того, мы предлагаем три автоматические метрики оценки, включая процент прохождения кода, соотношение совпадения текста и общую оценку GPT-4V, для детальной оценки выходного кода и отображаемых изображений. Вместо простого определения успеха или неудачи, мы используем GPT-4V для общей оценки между сгенерированными и эталонными изображениями, что показало согласованность с оценкой человека. Результаты оценки, включающие анализ 14 MLLMs, таких как собственный GPT-4V, Gemini-Pro и открытый Mini-Gemini, подчеркивают значительные вызовы, представленные Plot2Code. С помощью Plot2Code мы показываем, что большинство существующих MLLMs испытывают трудности с визуальным кодированием для графиков с плотным текстом, сильно полагаясь на текстовые инструкции. Мы надеемся, что результаты оценки визуального кодирования от Plot2Code направят будущее развитие MLLMs. Все данные, связанные с Plot2Code, доступны по ссылке https://huggingface.co/datasets/TencentARC/Plot2Code.

English

The remarkable progress of Multi-modal Large Language Models (MLLMs) has attracted significant attention due to their superior performance in visual contexts. However, their capabilities in turning visual figure to executable code, have not been evaluated thoroughly. To address this, we introduce Plot2Code, a comprehensive visual coding benchmark designed for a fair and in-depth assessment of MLLMs. We carefully collect 132 manually selected high-quality matplotlib plots across six plot types from publicly available matplotlib galleries. For each plot, we carefully offer its source code, and an descriptive instruction summarized by GPT-4. This approach enables Plot2Code to extensively evaluate MLLMs' code capabilities across various input modalities. Furthermore, we propose three automatic evaluation metrics, including code pass rate, text-match ratio, and GPT-4V overall rating, for a fine-grained assessment of the output code and rendered images. Instead of simply judging pass or fail, we employ GPT-4V to make an overall judgement between the generated and reference images, which has been shown to be consistent with human evaluation. The evaluation results, which include analyses of 14 MLLMs such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini, highlight the substantial challenges presented by Plot2Code. With Plot2Code, we reveal that most existing MLLMs struggle with visual coding for text-dense plots, heavily relying on textual instruction. We hope that the evaluation results from Plot2Code on visual coding will guide the future development of MLLMs. All data involved with Plot2Code are available at https://huggingface.co/datasets/TencentARC/Plot2Code.

Plot2Code: Комплексный бенчмарк для оценки мультимодальных крупномасштабных языковых моделей в генерации кода из научных графиков.

Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

Аннотация

Support