VisCoder2 : Construction d'Agents de Codage de Visualisation Multilingues

papers.abstract

Les grands modèles de langage (LLM) ont récemment permis le développement d'agents de programmation capables de générer, exécuter et réviser du code de visualisation. Cependant, les modèles existants échouent souvent dans les workflows pratiques en raison d'une couverture linguistique limitée, d'une exécution peu fiable et d'un manque de mécanismes de correction itératifs. Les progrès ont été entravés par des jeux de données et des benchmarks étroits qui privilégient la génération en un seul tour et les tâches monolingues. Pour relever ces défis, nous présentons trois ressources complémentaires pour faire progresser les agents de programmation de visualisation. VisCode-Multi-679K est un jeu de données supervisé à grande échelle contenant 679 000 échantillons de visualisation validés et exécutables avec des dialogues de correction multi-tours couvrant 12 langages de programmation. VisPlotBench est un benchmark pour l'évaluation systématique, proposant des tâches exécutables, des rendus graphiques et des protocoles pour la génération initiale et l'auto-débogage multi-tours. Enfin, nous présentons VisCoder2, une famille de modèles de visualisation multilingues entraînés sur VisCode-Multi-679K. Les expériences montrent que VisCoder2 surpasse significativement les modèles open-source performants et approche les performances de modèles propriétaires comme GPT-4.1, avec des gains supplémentaires grâce à l'auto-débogage itératif, atteignant un taux global de réussite à l'exécution de 82,4 % à l'échelle 32B, particulièrement dans les langages symboliques ou dépendants d'un compilateur.

English

Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.

VisCoder2 : Construction d'Agents de Codage de Visualisation Multilingues

VisCoder2: Building Multi-Language Visualization Coding Agents

papers.abstract

Support