VisCoder2: Bouwen van Multi-taal Visuele Codeeragenten
VisCoder2: Building Multi-Language Visualization Coding Agents
October 24, 2025
Auteurs: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben recentelijk codeeragenten mogelijk gemaakt die in staat zijn visualisatiecode te genereren, uit te voeren en te reviseren. Bestaande modellen falen echter vaak in praktische workflows vanwege beperkte taalondersteuning, onbetrouwbare uitvoering en een gebrek aan iteratieve correctiemechanismen. De vooruitgang wordt belemmerd door smalle datasets en benchmarks die eenzijdig nadruk leggen op generatie in één ronde en taken in één programmeertaal. Om deze uitdagingen aan te pakken, introduceren we drie complementaire bronnen voor de verdere ontwikkeling van visualisatiecodeeragenten. VisCode-Multi-679K is een grootschalige, gesuperviseerde dataset met 679K gevalideerde en uitvoerbare visualisatievoorbeelden, inclusief multi-turn correctiedialogen in 12 programmeertalen. VisPlotBench is een benchmark voor systematische evaluatie, met uitvoerbare taken, gerenderde output en protocollen voor zowel initiële generatie als multi-round zelfdebugging. Ten slotte presenteren we VisCoder2, een familie van multi-language visualisatiemodellen getraind op VisCode-Multi-679K. Experimenten tonen aan dat VisCoder2 sterk presteert in vergelijking met robuuste open-source alternatieven en de prestaties benadert van propriëtaire modellen zoals GPT-4.1, met verdere verbeteringen door iteratieve zelfdebugging, wat resulteert in een algeheel uitvoeringssuccespercentage van 82,4% op de 32B-schaal, met name in symbolische of compiler-afhankelijke talen.
English
Large language models (LLMs) have recently enabled coding agents capable of
generating, executing, and revising visualization code. However, existing
models often fail in practical workflows due to limited language coverage,
unreliable execution, and lack of iterative correction mechanisms. Progress has
been constrained by narrow datasets and benchmarks that emphasize single-round
generation and single-language tasks. To address these challenges, we introduce
three complementary resources for advancing visualization coding agents.
VisCode-Multi-679K is a large-scale, supervised dataset containing 679K
validated and executable visualization samples with multi-turn correction
dialogues across 12 programming languages. VisPlotBench is a benchmark for
systematic evaluation, featuring executable tasks, rendered outputs, and
protocols for both initial generation and multi-round self-debug. Finally, we
present VisCoder2, a family of multi-language visualization models trained on
VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms
strong open-source baselines and approaches the performance of proprietary
models like GPT-4.1, with further gains from iterative self-debug, reaching
82.4% overall execution pass rate at the 32B scale, particularly in symbolic or
compiler-dependent languages.