VectorGym: Een multitaskbenchmark voor SVG-codegeneratie, schetsen en bewerken

Samenvatting

Wij introduceren VectorGym, een uitgebreide benchmark-suite voor Scalable Vector Graphics (SVG) die zich uitstrekt over generatie vanuit tekst en schetsen, complexe bewerking en visueel begrip. VectorGym voorziet in het gebrek aan realistische, uitdagende benchmarks die zijn afgestemd op professionele ontwerpwerkstromen. Onze benchmark omvat vier taken met door experts handmatig gemaakte annotaties: de nieuwe Sketch2SVG-taak (VG-Sketch); een nieuwe SVG-bewerkingsdataset (VG-Edit) met complexe, meerstaps bewerkingen met hogere-orde-primitieven; Text2SVG-generatie (VG-Text); en SVG-beschrijving (VG-Cap). In tegenstelling tot eerdere benchmarks die afhankelijk zijn van synthetische bewerkingen, biedt VectorGym gouden-standaard menselijke annotaties die semantisch begrip en ontwerpintentie vereisen. Wij stellen ook een multi-task reinforcement learning-benadering voor die gezamenlijk optimaliseert over alle vier taken op basis van rendering-gebaseerde beloningen. Onze methode, gebouwd op GRPO met curriculum learning, traint een Qwen3-VL 8B-model dat state-of-the-art prestaties bereikt onder open-source modellen, waarbij het grotere modellen waaronder Qwen3-VL 235B overtreft en evenaart met GPT-4o. Wij introduceren ook een VLM-as-a-Judge-maatstaf voor SVG-generatie, gevalideerd door middel van menselijke correlatiestudies. Onze evaluatie van frontier VLMs onthult aanzienlijke prestatiekloof, waardoor VectorGym zich positioneert als een rigoureus raamwerk voor het bevorderen van visuele codegeneratie. VectorGym is publiekelijk beschikbaar op huggingface.co/datasets/ServiceNow/VectorGym.

English

We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.

VectorGym: Een multitaskbenchmark voor SVG-codegeneratie, schetsen en bewerken

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Samenvatting

Support