ChatPaper.aiChatPaper

VisCoder2: 다중 언어 시각화 코딩 에이전트 구축

VisCoder2: Building Multi-Language Visualization Coding Agents

October 24, 2025
저자: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen
cs.AI

초록

대규모 언어 모델(LLM)의 발전으로 시각화 코드 생성, 실행, 수정이 가능한 코딩 에이전트가 최근 등장했습니다. 그러나 기존 모델들은 언어 지원 범위의 한계, 불안정한 실행 성능, 반복적 수정 메커니즘이 부족하다는 이유로 실제 워크플로우에서 종종 실패합니다. 이러한 진전은 단일 라운드 생성과 단일 언어 작업을 강조하는 협소한 데이터셋과 벤치마크에 의해 제약을 받아왔습니다. 이러한 문제를 해결하기 위해 본 연구는 시각화 코딩 에이전트 발전을 위한 세 가지 상호 보완적인 리소스를 소개합니다. VisCode-Multi-679K는 12개 프로그래밍 언어에 걸쳐 다중 턴 수정 대화를 포함하며 검증되고 실행 가능한 67만 9천 개의 시각화 샘플로 구성된 대규모 감독 데이터셋입니다. VisPlotBench는 실행 가능한 작업, 렌더링된 출력, 초기 생성 및 다중 라운드 자체 디버깅을 위한 프로토콜을 갖춘 체계적 평가 벤치마크입니다. 마지막으로 VisCode-Multi-679K로 학습된 다중 언어 시각화 모델 패밀리인 VisCoder2를 제시합니다. 실험 결과, VisCoder2는 강력한 오픈소스 기반 모델들을 크게 능가하며 GPT-4.1과 같은 사유 모델의 성능에 근접하는 것으로 나타났습니다. 특히 반복적 자체 디버깅을 통해 32B 규모에서 전체 실행 통과율이 82.4%에 도달했으며, 이는 기호론적 또는 컴파일러 의존적 언어에서 두드러진 성과를 보였습니다.
English
Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.
PDF212December 1, 2025