RealChart2Code: Progressi nella Generazione di Codice da Grafici con Dati Reali e Valutazione Multi-Task

Abstract

I modelli visione-linguaggio (VLM) hanno dimostrato capacità impressionanti nella generazione di codice in vari domini. Tuttavia, la loro abilità di replicare visualizzazioni complesse e multi-pannello a partire da dati del mondo reale rimane in gran parte non valutata. Per colmare questa lacuna, introduciamo \texttt{RealChart2Code}, un nuovo benchmark su larga scala con oltre 2.800 istanze basate su dataset autentici e caratterizzate da compiti con una chiara intenzione analitica. Crucialmente, è il primo benchmark a valutare sistematicamente la generazione di grafici a partire da dati grezzi su larga scala e a valutare l'affinamento iterativo del codice in un contesto conversazionale multi-turn. La nostra valutazione completa di 14 VLM leader su RealChart2Code rivela un significativo degrado delle prestazioni rispetto a benchmark più semplici, evidenziando le loro difficoltà con strutture di grafici complesse e dati autentici. La nostra analisi scopre un divario prestazionale sostanziale tra modelli proprietari e open-weight e conferma che anche i VLM all'avanguardia spesso non riescono a replicare accuratamente grafici intricati e multi-pannello. Questi risultati forniscono spunti preziosi sui limiti attuali dei VLM e guidano le future direzioni di ricerca. Rilasciamo il benchmark e il codice all'indirizzo https://github.com/Speakn0w/RealChart2Code.

English

Vision-Language Models (VLMs) have demonstrated impressive capabilities in code generation across various domains. However, their ability to replicate complex, multi-panel visualizations from real-world data remains largely unassessed. To address this gap, we introduce \texttt{RealChart2Code}, a new large-scale benchmark with over 2,800 instances grounded in authentic datasets and featuring tasks with clear analytical intent. Crucially, it is the first benchmark to systematically evaluate chart generation from large-scale raw data and assess iterative code refinement in a multi-turn conversational setting. Our comprehensive evaluation of 14 leading VLMs on RealChart2Code reveals significant performance degradation compared to simpler benchmarks, highlighting their struggles with complex plot structures and authentic data. Our analysis uncovers a substantial performance gap between proprietary and open-weight models and confirms that even state-of-the-art VLMs often fail to accurately replicate intricate, multi-panel charts. These findings provide valuable insights into the current limitations of VLMs and guide future research directions. We release the benchmark and code at https://github.com/Speakn0w/RealChart2Code.

RealChart2Code: Progressi nella Generazione di Codice da Grafici con Dati Reali e Valutazione Multi-Task

RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Abstract

Support