ChatPaper.aiChatPaper

VisCoder2: Construindo Agentes de Codificação de Visualização Multi-idioma

VisCoder2: Building Multi-Language Visualization Coding Agents

October 24, 2025
Autores: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) permitiram recentemente o desenvolvimento de agentes de codificação capazes de gerar, executar e revisar código de visualização. No entanto, os modelos existes frequentemente falham em fluxos de trabalho práticos devido à cobertura linguística limitada, execução não confiável e falta de mecanismos de correção iterativa. O progresso tem sido limitado por conjuntos de dados e benchmarks restritos que enfatizam a geração em rodada única e tarefas em linguagem única. Para enfrentar esses desafios, introduzimos três recursos complementares para avançar os agentes de codificação de visualização. VisCode-Multi-679K é um conjunto de dados supervisionado em larga escala contendo 679 mil amostras de visualização validadas e executáveis, com diálogos de correção multirrodada em 12 linguagens de programação. VisPlotBench é um benchmark para avaliação sistemática, apresentando tarefas executáveis, resultados renderizados e protocolos para geração inicial e autodepuração multirrodada. Finalmente, apresentamos VisCoder2, uma família de modelos de visualização multilíngue treinados no VisCode-Multi-679K. Experimentos mostram que o VisCoder2 supera significativamente bases de código aberto robustas e aproxima-se do desempenho de modelos proprietários como o GPT-4.1, com ganhos adicionais provenientes da autodepuração iterativa, atingindo uma taxa geral de aprovação na execução de 82,4% na escala de 32B, particularmente em linguagens simbólicas ou dependentes de compilador.
English
Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.
PDF222February 7, 2026