VisCoder2: Construcción de Agentes de Codificación de Visualización Multilenguaje

Resumen

Los modelos de lenguaje grande (LLM) han permitido recientemente el desarrollo de agentes de programación capaces de generar, ejecutar y revisar código de visualización. Sin embargo, los modelos existentes a menudo fallan en flujos de trabajo prácticos debido a una cobertura lingüística limitada, ejecución poco fiable y la falta de mecanismos de corrección iterativos. El progreso se ha visto limitado por conjuntos de datos y puntos de referencia estrechos que enfatizan la generación en una sola ronda y tareas en un solo lenguaje. Para abordar estos desafíos, presentamos tres recursos complementarios para avanzar en los agentes de programación de visualización. VisCode-Multi-679K es un conjunto de datos supervisado a gran escala que contiene 679K muestras de visualización validadas y ejecutables con diálogos de corrección multiturno en 12 lenguajes de programación. VisPlotBench es un punto de referencia para la evaluación sistemática, que incluye tareas ejecutables, resultados renderizados y protocolos tanto para la generación inicial como para la autodepuración en múltiples rondas. Finalmente, presentamos VisCoder2, una familia de modelos de visualización multilingüe entrenados en VisCode-Multi-679K. Los experimentos muestran que VisCoder2 supera significativamente a sólidos modelos de código abierto de referencia y se acerca al rendimiento de modelos propietarios como GPT-4.1, con ganancias adicionales gracias a la autodepuración iterativa, alcanzando una tasa general de ejecución exitosa del 82.4% a escala 32B, particularmente en lenguajes simbólicos o dependientes de compilador.

English

Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.

VisCoder2: Construcción de Agentes de Codificación de Visualización Multilenguaje

VisCoder2: Building Multi-Language Visualization Coding Agents

Resumen

Support