ChatPaper.aiChatPaper

VisCoder2: マルチ言語可視化コーディングエージェントの構築

VisCoder2: Building Multi-Language Visualization Coding Agents

October 24, 2025
著者: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen
cs.AI

要旨

大規模言語モデル(LLM)の発展により、視覚化コードの生成・実行・修正が可能なコーディングエージェントが実現されつつある。しかし、既存のモデルは、言語対応の限界、実行の信頼性不足、反復的修正メカニズムの欠如により、実践的なワークフローではしばしば失敗する。進展は、単一ラウンドの生成と単一言語タスクを重視した狭義のデータセットとベンチマークによって制約されてきた。これらの課題に対処するため、我々は視覚化コーディングエージェントを推進するための3つの相補的リソースを提案する。VisCode-Multi-679Kは、12のプログラミング言語にわたるマルチターン修正対話を含む、679Kの検証済みで実行可能な視覚化サンプルから構成される大規模教師付きデータセットである。VisPlotBenchは、実行可能なタスク、レンダリングされた出力、初期生成とマルチラウンド自己デバッグの両方のプロトコルを特徴とする体系的な評価のためのベンチマークである。最後に、VisCode-Multi-679Kで学習させた多言語視覚化モデルファミリーであるVisCoder2を提示する。実験結果から、VisCoder2は強力なオープンソースベースラインを大幅に上回り、GPT-4.1のようなプロプライエタリモデルの性能に迫り、反復的自己デバッグによりさらに向上し、32Bスケールで全体の実行パス率82.4%に達することが示された。これは特に、記号的またはコンパイラに依存する言語において顕著である。
English
Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.
PDF212December 1, 2025