VisCoder2: Sviluppo di Agenti di Codifica per Visualizzazioni Multilingue
VisCoder2: Building Multi-Language Visualization Coding Agents
October 24, 2025
Autori: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente reso possibili agenti di programmazione in grado di generare, eseguire e revisionare codice per la visualizzazione. Tuttavia, i modelli esistenti falliscono spesso nei flussi di lavoro pratici a causa di una copertura linguistica limitata, un'esecuzione inaffidabile e una mancanza di meccanismi di correzione iterativa. Il progresso è stato limitato da dataset e benchmark ristretti che enfatizzano la generazione in un singolo turno e compiti in un unico linguaggio. Per affrontare queste sfide, introduciamo tre risorse complementari per far avanzare gli agenti di programmazione per la visualizzazione. VisCode-Multi-679K è un dataset supervisionato su larga scala contenente 679K campioni di visualizzazione validati ed eseguibili con dialoghi di correzione a più turni in 12 linguaggi di programmazione. VisPlotBench è un benchmark per la valutazione sistematica, che include compiti eseguibili, output renderizzati e protocolli sia per la generazione iniziale che per l'auto-debugging multi-round. Infine, presentiamo VisCoder2, una famiglia di modelli per la visualizzazione multi-linguaggio addestrati su VisCode-Multi-679K. Gli esperimenti mostrano che VisCoder2 supera significativamente i solidi benchmark open-source e si avvicina alle prestazioni di modelli proprietari come GPT-4.1, con ulteriori vantaggi derivanti dall'auto-debugging iterativo, raggiungendo un tasso di successo complessivo dell'82.4% nell'esecuzione alla scala 32B, in particolare nei linguaggi simbolici o dipendenti da compilatore.
English
Large language models (LLMs) have recently enabled coding agents capable of
generating, executing, and revising visualization code. However, existing
models often fail in practical workflows due to limited language coverage,
unreliable execution, and lack of iterative correction mechanisms. Progress has
been constrained by narrow datasets and benchmarks that emphasize single-round
generation and single-language tasks. To address these challenges, we introduce
three complementary resources for advancing visualization coding agents.
VisCode-Multi-679K is a large-scale, supervised dataset containing 679K
validated and executable visualization samples with multi-turn correction
dialogues across 12 programming languages. VisPlotBench is a benchmark for
systematic evaluation, featuring executable tasks, rendered outputs, and
protocols for both initial generation and multi-round self-debug. Finally, we
present VisCoder2, a family of multi-language visualization models trained on
VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms
strong open-source baselines and approaches the performance of proprietary
models like GPT-4.1, with further gains from iterative self-debug, reaching
82.4% overall execution pass rate at the 32B scale, particularly in symbolic or
compiler-dependent languages.