VectorGym: Un Benchmark Multitask per la Generazione, il Disegno e la Modifica di Codice SVG

Abstract

Introduciamo VectorGym, una suite di benchmark completa per la grafica vettoriale scalabile (SVG) che abbraccia la generazione a partire da testo e schizzi, l'editing complesso e la comprensione visiva. VectorGym affronta la carenza di benchmark realistici e stimolanti allineati con i flussi di lavoro del design professionale. Il nostro benchmark comprende quattro task con annotazioni esperte redatte da umani: il nuovo task Sketch2SVG (VG-Sketch); un nuovo dataset per l'editing SVG (VG-Edit) che presenta modifiche complesse e multi-step con primitive di ordine superiore; la generazione Text2SVG (VG-Text); e la descrizione di immagini SVG (VG-Cap). A differenza dei benchmark precedenti che si basano su modifiche sintetiche, VectorGym fornisce annotazioni gold-standard umane che richiedono una comprensione semantica e l'intento progettuale. Proponiamo anche un approccio di apprendimento per rinforzo multi-task che ottimizza congiuntamente tutti e quattro i task utilizzando ricompense basate sul rendering. Il nostro metodo, basato su GRPO con apprendimento per curriculum, addestra un modello Qwen3-VL 8B che raggiunge prestazioni state-of-the-art tra i modelli open-source, superando modelli molto più grandi, incluso Qwen3-VL 235B, e pareggiando GPT-4o. Introduciamo inoltre una metrica VLM-as-a-Judge per la generazione SVG, validata attraverso studi di correlazione umana. La nostra valutazione dei VLM di frontiera rivela significativi gap prestazionali, posizionando VectorGym come un framework rigoroso per far progredire la generazione di codice visivo. VectorGym è pubblicamente disponibile su huggingface.co/datasets/ServiceNow/VectorGym.

English

We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.

VectorGym: Un Benchmark Multitask per la Generazione, il Disegno e la Modifica di Codice SVG

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Abstract

Support