ChatPaper.aiChatPaper

VectorGym: SVGコード生成・スケッチ・編集のためのマルチタスクベンチマーク

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

February 22, 2026
著者: Juan Rodriguez, Haotian Zhang, Abhay Puri, Tianyang Zhang, Rishav Pramanik, Meng Lin, Xiaoqing Xie, Marco Terral, Darsh Kaushik, Aly Shariff, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI

要旨

本論文では、スケーラブルベクターグラフィックス(SVG)の包括的ベンチマークスイート「VectorGym」を提案する。本スイートは、テキストやスケッチからの生成、複雑な編集、視覚的理解にわたるタスクを網羅する。VectorGymは、専門的なデザインワークフローに沿った現実的で挑戦的なベンチマークの不足という課題に対処する。本ベンチマークは、専門家による人手注釈を施した4つのタスクで構成される:新規のSketch2SVGタスク(VG-Sketch)、高次プリミティブを用いた複数段階の複雑な編集を特徴とする新規SVG編集データセット(VG-Edit)、Text2SVG生成(VG-Text)、およびSVGキャプション生成(VG-Cap)。合成編集に依存する従来のベンチマークと異なり、VectorGymは意味理解とデザイン意図を必要とするゴールドスタンダードの人手注釈を提供する。さらに、レンダリングベースの報酬を用いて全4タスクを共同最適化するマルチタスク強化学習アプローチを提案する。カリキュラム学習を組み込んだGRPOを基盤とする本手法は、Qwen3-VL 8Bモデルを学習させ、オープンソースモデルの中で最先端の性能を達成し、Qwen3-VL 235Bを含むはるかに大規模なモデルを凌駕し、GPT-4oに匹敵する結果を示す。また、SVG生成のためのVLM-as-a-Judge評価指標を導入し、人間との相関研究により検証する。先端VLMの評価により大きな性能ギャップが明らかとなり、VectorGymが視覚的コード生成の発展に向けた厳格なフレームワークとして位置づけられることを示す。VectorGymはhuggingface.co/datasets/ServiceNow/VectorGymで公開されている。
English
We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.
PDF40April 2, 2026