VisCoder2: Entwicklung von Multi-Sprach-Agenten für Visualisierungscode
VisCoder2: Building Multi-Language Visualization Coding Agents
October 24, 2025
papers.authors: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben kürzlich Code-Agenten ermöglicht, die in der Lage sind, Visualisierungscode zu generieren, auszuführen und zu überarbeiten. Bestehende Modelle scheitern in praktischen Workflows jedoch häufig an begrenzter Sprachabdeckung, unzuverlässiger Ausführung und dem Fehlen iterativer Korrekturmechanismen. Der Fortschritt wurde durch eingeschränkte Datensätze und Benchmarks behindert, die Einzelrunden-Generierung und Einzelsprachen-Aufgaben betonen. Um diese Herausforderungen zu bewältigen, stellen wir drei komplementäre Ressourcen zur Weiterentwicklung von Visualisierungs-Code-Agenten vor. VisCode-Multi-679K ist ein umfangreicher, überwachter Datensatz mit 679.000 validierten und ausführbaren Visualisierungsbeispielen sowie mehrstufigen Korrekturdialogen in 12 Programmiersprachen. VisPlotBench ist ein Benchmark für die systematische Evaluation, der ausführbare Aufgaben, gerenderte Ausgaben und Protokolle sowohl für die initiale Generierung als auch für mehrstufiges Selbst-Debugging umfasst. Schließlich präsentieren wir VisCoder2, eine Familie mehrsprachiger Visualisierungsmodelle, die auf VisCode-Multi-679K trainiert wurden. Experimente zeigen, dass VisCoder2 starke Open-Source-Baselines signifikant übertrifft und sich der Leistung proprietärer Modelle wie GPT-4.1 annähert. Durch iteratives Selbst-Debugging werden weitere Gewinne erzielt, was bei der 32B-Skala zu einer Gesamt-Ausführungs-Erfolgsquote von 82,4 % führt, insbesondere in symbolischen oder kompilierabhängigen Sprachen.
English
Large language models (LLMs) have recently enabled coding agents capable of
generating, executing, and revising visualization code. However, existing
models often fail in practical workflows due to limited language coverage,
unreliable execution, and lack of iterative correction mechanisms. Progress has
been constrained by narrow datasets and benchmarks that emphasize single-round
generation and single-language tasks. To address these challenges, we introduce
three complementary resources for advancing visualization coding agents.
VisCode-Multi-679K is a large-scale, supervised dataset containing 679K
validated and executable visualization samples with multi-turn correction
dialogues across 12 programming languages. VisPlotBench is a benchmark for
systematic evaluation, featuring executable tasks, rendered outputs, and
protocols for both initial generation and multi-round self-debug. Finally, we
present VisCoder2, a family of multi-language visualization models trained on
VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms
strong open-source baselines and approaches the performance of proprietary
models like GPT-4.1, with further gains from iterative self-debug, reaching
82.4% overall execution pass rate at the 32B scale, particularly in symbolic or
compiler-dependent languages.