RealChart2Code : Faire progresser la génération de code à partir de graphiques avec des données réelles et une évaluation multi-tâches

Résumé

Les modèles vision-langage (VLM) ont démontré des capacités impressionnantes en génération de code dans divers domaines. Cependant, leur aptitude à reproduire des visualisations complexes multi-panels à partir de données réelles reste largement inexplorée. Pour combler cette lacune, nous présentons \texttt{RealChart2Code}, un nouveau benchmark à grande échelle comprenant plus de 2 800 instances ancrées dans des jeux de données authentiques et proposant des tâches avec une intention analytique claire. Il s'agit surtout du premier benchmark à évaluer systématiquement la génération de graphiques à partir de données brutes à grande échelle et à tester l'affinement itératif du code dans un contexte conversationnel multi-tours. Notre évaluation complète de 14 VLM leaders sur RealChart2Code révèle une dégradation significative des performances par rapport aux benchmarks plus simples, mettant en lumière leurs difficultés avec les structures de graphiques complexes et les données authentiques. Notre analyse met en évidence un écart de performance substantiel entre les modèles propriétaires et open-weight, et confirme que même les VLM les plus avancés échouent souvent à reproduire fidèlement des graphiques complexes multi-panels. Ces résultats offrent des perspectives précises sur les limitations actuelles des VLM et orientent les futures directions de recherche. Nous publions le benchmark et le code à l'adresse https://github.com/Speakn0w/RealChart2Code.

English

Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.

RealChart2Code : Faire progresser la génération de code à partir de graphiques avec des données réelles et une évaluation multi-tâches

RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Résumé

Support