RealChart2Code: Развитие генерации кода из диаграмм с использованием реальных данных и многозадачной оценки

Аннотация

Модели «визуальный язык» (VLMs) продемонстрировали впечатляющие возможности в генерации кода в различных областях. Однако их способность воспроизводить сложные многопанельные визуализации на основе реальных данных до сих пор в значительной степени не оценена. Чтобы восполнить этот пробел, мы представляем \texttt{RealChart2Code} — новый масштабируемый эталонный набор данных, содержащий более 2800 примеров, основанных на реальных наборах данных и включающих задачи с четкой аналитической целью. Ключевым моментом является то, что это первый эталон, который систематически оценивает генерацию диаграмм из крупномасштабных сырых данных и оценивает итеративное уточнение кода в условиях многошагового диалога. Наше всестороннее тестирование 14 ведущих VLMs на RealChart2Code выявило значительную деградацию производительности по сравнению с более простыми эталонами, что подчеркивает их трудности со сложными структурами графиков и реальными данными. Наш анализ обнаруживает существенный разрыв в производительности между проприетарными и открытыми моделями и подтверждает, что даже передовые VLMs часто не могут точно воспроизвести сложные многопанельные диаграммы. Эти результаты дают ценное представление о текущих ограничениях VLMs и определяют направления для будущих исследований. Мы публикуем эталонный набор данных и код по адресу https://github.com/Speakn0w/RealChart2Code.

English

Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.

RealChart2Code: Развитие генерации кода из диаграмм с использованием реальных данных и многозадачной оценки

RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Аннотация

Support