VisCoder2: Создание мультиязычных агентов для генерации кода визуализаций
VisCoder2: Building Multi-Language Visualization Coding Agents
October 24, 2025
Авторы: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen
cs.AI
Аннотация
Крупные языковые модели (LLMs) недавно позволили создать кодирующих агентов, способных генерировать, исполнять и исправлять код визуализаций. Однако существующие модели часто оказываются неэффективными в реальных рабочих процессах из-за ограниченного покрытия языков программирования, ненадежного исполнения кода и отсутствия механизмов итеративного исправления. Прогресс сдерживается узкими наборами данных и бенчмарками, которые делают акцент на одноэтапную генерацию и задачи на одном языке программирования. Для решения этих проблем мы представляем три взаимодополняющих ресурса для развития кодирующих агентов визуализации. VisCode-Multi-679K — это масштабируемый размеченный набор данных, содержащий 679 тыс. проверенных и исполняемых примеров визуализаций с многошаговыми диалогами исправления для 12 языков программирования. VisPlotBench — это бенчмарк для систематической оценки, включающий исполняемые задачи, визуализированные результаты и протоколы как для первоначальной генерации, так и для многошаговой самодиагностики. Наконец, мы представляем VisCoder2, семейство мультиязычных моделей для визуализации, обученных на VisCode-Multi-679K. Эксперименты показывают, что VisCoder2 значительно превосходит сильные модели с открытым исходным кодом и приближается к производительности проприетарных моделей, таких как GPT-4.1, с дополнительным улучшением за счет итеративной самодиагностики, достигая 82,4% общего показателя успешного исполнения кода для модели масштаба 32B, особенно для символических языков или языков, зависящих от компилятора.
English
Large language models (LLMs) have recently enabled coding agents capable of
generating, executing, and revising visualization code. However, existing
models often fail in practical workflows due to limited language coverage,
unreliable execution, and lack of iterative correction mechanisms. Progress has
been constrained by narrow datasets and benchmarks that emphasize single-round
generation and single-language tasks. To address these challenges, we introduce
three complementary resources for advancing visualization coding agents.
VisCode-Multi-679K is a large-scale, supervised dataset containing 679K
validated and executable visualization samples with multi-turn correction
dialogues across 12 programming languages. VisPlotBench is a benchmark for
systematic evaluation, featuring executable tasks, rendered outputs, and
protocols for both initial generation and multi-round self-debug. Finally, we
present VisCoder2, a family of multi-language visualization models trained on
VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms
strong open-source baselines and approaches the performance of proprietary
models like GPT-4.1, with further gains from iterative self-debug, reaching
82.4% overall execution pass rate at the 32B scale, particularly in symbolic or
compiler-dependent languages.