RealChart2Code: Fortschritte bei der Diagramm-zu-Code-Generierung mit realen Daten und Multi-Task-Evaluierung

Zusammenfassung

Vision-Language Models (VLMs) haben beeindruckende Fähigkeiten bei der Code-Generierung in verschiedenen Domänen demonstriert. Ihre Fähigkeit, komplexe, mehrteilige Visualisierungen aus realen Daten zu replizieren, wurde jedoch bisher kaum bewertet. Um diese Lücke zu schließen, führen wir \texttt{RealChart2Code} ein, einen neuen, umfangreichen Benchmark mit über 2.800 Instanzen, die auf authentischen Datensätzen basieren und Aufgaben mit klarem analytischem Anspruch umfassen. Entscheidend ist, dass es der erste Benchmark ist, der systematisch die Diagrammgenerierung aus großen Rohdaten bewertet und die iterative Code-Verbesserung in einem mehrschrittigen, konversationellen Kontext untersucht. Unsere umfassende Evaluation von 14 führenden VLMs mit RealChart2Code zeigt eine signifikante Leistungsverschlechterung im Vergleich zu einfacheren Benchmarks auf und unterstreicht ihre Schwierigkeiten mit komplexen Plot-Strukturen und authentischen Daten. Unsere Analyse deckt eine erhebliche Leistungslücke zwischen proprietären und Open-Weight-Modellen auf und bestätigt, dass selbst state-of-the-art VLMs oft daran scheitern, intricate, mehrteilige Diagramme akkurat zu replizieren. Diese Erkenntnisse liefern wertvolle Einblicke in die aktuellen Grenzen von VLMs und weisen zukünftige Forschungsrichtungen. Wir veröffentlichen den Benchmark und den Code unter https://github.com/Speakn0w/RealChart2Code.

English

Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.

RealChart2Code: Fortschritte bei der Diagramm-zu-Code-Generierung mit realen Daten und Multi-Task-Evaluierung

RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Zusammenfassung

Support