VectorGym: Ein Multitask-Benchmark für die Generierung, Skizzierung und Bearbeitung von SVG-Code

Zusammenfassung

Wir stellen VectorGym vor, eine umfassende Benchmark-Suite für skalierbare Vektorgrafiken (SVG), die die Generierung aus Text und Skizzen, komplexe Bearbeitung und visuelles Verständnis abdeckt. VectorGym behebt den Mangel an realistischen, anspruchsvollen Benchmarks, die an professionelle Design-Workflows angelehnt sind. Unser Benchmark umfasst vier Aufgaben mit von Experten erstellten Annotationen: die neuartige Sketch2SVG-Aufgabe (VG-Sketch); einen neuen SVG-Bearbeitungsdatensatz (VG-Edit) mit komplexen, mehrstufigen Bearbeitungen mittels höherer Primitiven; Text2SVG-Generierung (VG-Text); und SVG-Bildbeschreibung (VG-Cap). Im Gegensatz zu früheren Benchmarks, die auf synthetischen Bearbeitungen basieren, bietet VectorGym hochwertige menschliche Annotationen, die semantisches Verständnis und Designabsicht erfordern. Wir schlagen zudem einen multi-task Reinforcement-Learning-Ansatz vor, der alle vier Aufgaben gemeinsam mittels renderbasierter Belohnungen optimiert. Unsere Methode, basierend auf GRPO mit Curriculum Learning, trainiert ein Qwen3-VL-8B-Modell, das state-of-the-art Leistung unter Open-Source-Modellen erzielt und größere Modelle wie Qwen3-VL 235B übertrifft sowie mit GPT-4o gleichzieht. Wir führen zudem eine VLM-as-a-Judge-Metrik für die SVG-Generierung ein, die durch menschliche Korrelationsstudien validiert wurde. Unsere Evaluation führender VLMs zeigt erhebliche Leistungsunterschiede auf und positioniert VectorGym als rigorosen Rahmen für die Weiterentwicklung der visuellen Codegenerierung. VectorGym ist öffentlich verfügbar unter huggingface.co/datasets/ServiceNow/VectorGym.

English

We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.

VectorGym: Ein Multitask-Benchmark für die Generierung, Skizzierung und Bearbeitung von SVG-Code

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Zusammenfassung

Support