De gráficos a código: Un punto de referencia jerárquico para modelos multimodales
From Charts to Code: A Hierarchical Benchmark for Multimodal Models
October 20, 2025
Autores: Jiahao Tang, Henry Hengyuan Zhao, Lijian Wu, Yifei Tao, Dongxing Mao, Yang Wan, Jingru Tan, Min Zeng, Min Li, Alex Jinpeng Wang
cs.AI
Resumen
Presentamos Chart2Code, un nuevo punto de referencia para evaluar las capacidades de comprensión de gráficos y generación de código de los modelos multimodales grandes (LMMs). Chart2Code está diseñado explícitamente desde una perspectiva impulsada por el usuario, capturando diversos escenarios del mundo real y aumentando progresivamente la dificultad de las tareas. Consta de tres niveles: Nivel 1 (Reproducción de Gráficos) reproduce gráficos a partir de una figura de referencia y una consulta del usuario; Nivel 2 (Edición de Gráficos) implica modificaciones complejas como cambiar tipos de gráficos o agregar elementos; y Nivel 3 (Generación de Gráficos a partir de Tablas Largas) requiere que los modelos transformen tablas largas y densas en información en gráficos fieles siguiendo las instrucciones del usuario. Hasta donde sabemos, este es el primer punto de referencia jerárquico que refleja el uso práctico de chart2code mientras escala sistemáticamente la complejidad de las tareas. En total, Chart2Code contiene 2,023 tareas en 22 tipos de gráficos, acompañadas de métricas de evaluación de múltiples niveles que evalúan tanto la corrección del código como la fidelidad visual de los gráficos renderizados. Evaluamos 25 LMMs de última generación (SoTA), incluyendo tanto modelos propietarios como los últimos modelos de código abierto como GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL y Seed-1.6-VL. Los resultados experimentales demuestran que incluso el modelo SoTA GPT-5 promedia solo 0.57 en la evaluación basada en código y 0.22 en la evaluación de calidad de gráficos en las tareas de edición, subrayando la dificultad de Chart2Code. Anticipamos que este punto de referencia impulsará avances en el razonamiento multimodal y fomentará el desarrollo de LMMs más robustos y de propósito general. Nuestro código y datos están disponibles en Chart2Code.
English
We introduce Chart2Code, a new benchmark for evaluating the chart
understanding and code generation capabilities of large multimodal models
(LMMs). Chart2Code is explicitly designed from a user-driven perspective,
capturing diverse real-world scenarios and progressively increasing task
difficulty. It consists of three levels: Level 1 (Chart Reproduction)
reproduces charts from a reference figure and user query; Level 2 (Chart
Editing) involves complex modifications such as changing chart types or adding
elements; and Level 3 (Long-Table to Chart Generation) requires models to
transform long, information-dense tables into faithful charts following user
instructions. To our knowledge, this is the first hierarchical benchmark that
reflects practical chart2code usage while systematically scaling task
complexity. In total, Chart2Code contains 2,023 tasks across 22 chart types,
paired with multi-level evaluation metrics that assess both code correctness
and the visual fidelity of rendered charts. We benchmark 25 state-of-the-art
(SoTA) LMMs, including both proprietary and the latest open-source models such
as GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL, and Seed-1.6-VL. Experimental
results demonstrate that even the SoTA model GPT-5 averages only 0.57 on
code-based evaluation and 0.22 on chart-quality assessment across the editing
tasks, underscoring the difficulty of Chart2Code. We anticipate this benchmark
will drive advances in multimodal reasoning and foster the development of more
robust and general-purpose LMMs. Our code and data are available on Chart2Code.