RealChart2Code: Vooruitgang in Grafiek-naar-Code Generatie met Echte Gegevens en Multi-Taak Evaluatie
RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation
March 26, 2026
Auteurs: Jiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang
cs.AI
Samenvatting
Vision-Language Models (VLMs) hebben indrukwekkende mogelijkheden gedemonstreerd voor codegeneratie in verschillende domeinen. Hun vermogen om complexe, multi-panel visualisaties te reproduceren op basis van real-world gegevens blijft echter grotendeels onbeoordeeld. Om deze leemte aan te pakken, introduceren we \texttt{RealChart2Code}, een nieuwe grootschalige benchmark met meer dan 2.800 instanties, gebaseerd op authentieke datasets en voorzien van taken met een duidelijke analytische intentie. Cruciaal is dat het de eerste benchmark is die systematisch de generatie van grafieken uit grootschalige ruwe data evalueert en iteratieve coderaffinage beoordeelt in een multi-turn conversationele setting. Onze uitgebreide evaluatie van 14 toonaangevende VLMs op RealChart2Code onthult een significante prestatievermindering in vergelijking met eenvoudigere benchmarks, wat hun problemen met complexe plotstructuren en authentieke data benadrukt. Onze analyse legt een aanzienlijke prestatiekloof bloot tussen propriëtaire en open-weight modellen en bevestigt dat zelfs state-of-the-art VLMs vaak niet in staat zijn ingewikkelde, multi-panel grafieken nauwkeurig te reproduceren. Deze bevindingen bieden waardevolle inzichten in de huidige beperkingen van VLMs en sturen toekomstige onderzoeksrichtingen. We geven de benchmark en code vrij op https://github.com/Speakn0w/RealChart2Code.
English
Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.