VisCoder2: Sviluppo di Agenti di Codifica per Visualizzazioni Multilingue

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno recentemente reso possibili agenti di programmazione in grado di generare, eseguire e revisionare codice per la visualizzazione. Tuttavia, i modelli esistenti falliscono spesso nei flussi di lavoro pratici a causa di una copertura linguistica limitata, un'esecuzione inaffidabile e una mancanza di meccanismi di correzione iterativa. Il progresso è stato limitato da dataset e benchmark ristretti che enfatizzano la generazione in un singolo turno e compiti in un unico linguaggio. Per affrontare queste sfide, introduciamo tre risorse complementari per far avanzare gli agenti di programmazione per la visualizzazione. VisCode-Multi-679K è un dataset supervisionato su larga scala contenente 679K campioni di visualizzazione validati ed eseguibili con dialoghi di correzione a più turni in 12 linguaggi di programmazione. VisPlotBench è un benchmark per la valutazione sistematica, che include compiti eseguibili, output renderizzati e protocolli sia per la generazione iniziale che per l'auto-debugging multi-round. Infine, presentiamo VisCoder2, una famiglia di modelli per la visualizzazione multi-linguaggio addestrati su VisCode-Multi-679K. Gli esperimenti mostrano che VisCoder2 supera significativamente i solidi benchmark open-source e si avvicina alle prestazioni di modelli proprietari come GPT-4.1, con ulteriori vantaggi derivanti dall'auto-debugging iterativo, raggiungendo un tasso di successo complessivo dell'82.4% nell'esecuzione alla scala 32B, in particolare nei linguaggi simbolici o dipendenti da compilatore.

English

Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.

VisCoder2: Sviluppo di Agenti di Codifica per Visualizzazioni Multilingue

VisCoder2: Building Multi-Language Visualization Coding Agents

Abstract

Support