RealChart2Code: Avanzando en la Generación de Código a partir de Gráficos con Datos Reales y Evaluación Multitarea

Resumen

Los Modelos de Lenguaje-Visión (VLMs) han demostrado capacidades impresionantes en la generación de código en diversos dominios. Sin embargo, su habilidad para replicar visualizaciones complejas y multipanel a partir de datos del mundo real sigue estando en gran medida sin evaluar. Para abordar esta brecha, presentamos \texttt{RealChart2Code}, un nuevo benchmark a gran escala con más de 2.800 instancias basadas en conjuntos de datos auténticos y que presenta tareas con una clara intención analítica. De manera crucial, es el primer benchmark que evalúa sistemáticamente la generación de gráficos a partir de datos brutos a gran escala y que valora el refinamiento iterativo del código en un entorno conversacional de múltiples turnos. Nuestra evaluación exhaustiva de 14 VLMs líderes en RealChart2Code revela una degradación significativa del rendimiento en comparación con benchmarks más simples, destacando sus dificultades con estructuras de gráficos complejas y datos auténticos. Nuestro análisis descubre una brecha de rendimiento sustancial entre los modelos propietarios y los de pesos abiertos, y confirma que incluso los VLMs más avanzados a menudo fallan al replicar con precisión gráficos intrincados y multipanel. Estos hallazgos ofrecen información valiosa sobre las limitaciones actuales de los VLMs y guían futuras direcciones de investigación. Publicamos el benchmark y el código en https://github.com/Speakn0w/RealChart2Code.

English

Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.

RealChart2Code: Avanzando en la Generación de Código a partir de Gráficos con Datos Reales y Evaluación Multitarea

RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Resumen

Support