VisCoder2: Создание мультиязычных агентов для генерации кода визуализаций

Аннотация

Крупные языковые модели (LLMs) недавно позволили создать кодирующих агентов, способных генерировать, исполнять и исправлять код визуализаций. Однако существующие модели часто оказываются неэффективными в реальных рабочих процессах из-за ограниченного покрытия языков программирования, ненадежного исполнения кода и отсутствия механизмов итеративного исправления. Прогресс сдерживается узкими наборами данных и бенчмарками, которые делают акцент на одноэтапную генерацию и задачи на одном языке программирования. Для решения этих проблем мы представляем три взаимодополняющих ресурса для развития кодирующих агентов визуализации. VisCode-Multi-679K — это масштабируемый размеченный набор данных, содержащий 679 тыс. проверенных и исполняемых примеров визуализаций с многошаговыми диалогами исправления для 12 языков программирования. VisPlotBench — это бенчмарк для систематической оценки, включающий исполняемые задачи, визуализированные результаты и протоколы как для первоначальной генерации, так и для многошаговой самодиагностики. Наконец, мы представляем VisCoder2, семейство мультиязычных моделей для визуализации, обученных на VisCode-Multi-679K. Эксперименты показывают, что VisCoder2 значительно превосходит сильные модели с открытым исходным кодом и приближается к производительности проприетарных моделей, таких как GPT-4.1, с дополнительным улучшением за счет итеративной самодиагностики, достигая 82,4% общего показателя успешного исполнения кода для модели масштаба 32B, особенно для символических языков или языков, зависящих от компилятора.

English

Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.

VisCoder2: Создание мультиязычных агентов для генерации кода визуализаций

VisCoder2: Building Multi-Language Visualization Coding Agents

Аннотация

Support