VectorGym: Многозадачный бенчмарк для генерации SVG-кода, создания набросков и редактирования

Аннотация

Мы представляем VectorGym — комплексный набор тестов для масштабируемой векторной графики (SVG), охватывающий генерацию из текста и набросков, сложное редактирование и визуальное понимание. VectorGym решает проблему отсутствия реалистичных и сложных тестов, соответствующих профессиональным дизайнерским процессам. Наш бенчмарк включает четыре задачи с экспертными аннотациями, созданными человеком: новую задачу Sketch2SVG (VG-Sketch); новый набор данных для редактирования SVG (VG-Edit) со сложными многошаговыми правками с использованием примитивов высокого порядка; генерацию Text2SVG (VG-Text) и подписи к SVG (VG-Cap). В отличие от предыдущих тестов, основанных на синтетических правках, VectorGym предоставляет эталонные аннотации, созданные человеком, которые требуют семантического понимания и учета дизайнерского замысла. Мы также предлагаем многозадачный подход с обучением с подкреплением, который совместно оптимизирует все четыре задачи с использованием рендеринг-ориентированных вознаграждений. Наш метод, построенный на GRPO с поэтапным обучением, тренирует модель Qwen3-VL 8B, которая демонстрирует наилучшую производительность среди открытых моделей, превосходя значительно более крупные модели, включая Qwen3-VL 235B, и достигая уровня GPT-4o. Мы также вводим метрику VLM-as-a-Judge для генерации SVG, валидированную через исследования с участием людей. Наша оценка передовых VLM выявляет значительные пробелы в производительности, что позиционирует VectorGym как строгую систему для развития генерации визуального кода. VectorGym общедоступен по адресу huggingface.co/datasets/ServiceNow/VectorGym.

English

We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.

VectorGym: Многозадачный бенчмарк для генерации SVG-кода, создания набросков и редактирования

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Аннотация

Support