VectorGym : Un benchmark multitâche pour la génération, l'esquisse et l'édition de code SVG

Résumé

Nous présentons VectorGym, une suite de référence complète pour les graphiques vectoriels évolutifs (SVG) qui couvre la génération à partir de textes et d'esquisses, l'édition complexe et la compréhension visuelle. VectorGym répond à l'absence de référentiels réalistes et exigeants alignés sur les flux de travail professionnels de conception. Notre benchmark comprend quatre tâches avec des annotations expertes rédigées par des humains : la nouvelle tâche Sketch2SVG (VG-Sketch) ; un nouveau jeu de données d'édition SVG (VG-Edit) comportant des modifications complexes multi-étapes avec des primitives d'ordre supérieur ; la génération Text2SVG (VG-Text) ; et la légende d'images SVG (VG-Cap). Contrairement aux benchmarks antérieurs reposant sur des modifications synthétiques, VectorGym fournit des annotations humaines de référence qui exigent une compréhension sémantique et une intention de conception. Nous proposons également une approche d'apprentissage par renforcement multi-tâches qui optimise conjointement les quatre tâches en utilisant des récompenses basées sur le rendu. Notre méthode, construite sur GRPO avec un apprentissage curriculaire, entraîne un modèle Qwen3-VL 8B qui atteint des performances de pointe parmi les modèles open-source, surpassant des modèles bien plus grands comme Qwen3-VL 235B et égalant GPT-4o. Nous introduisons également une métrique VLM-comme-juge pour la génération SVG, validée par des études de corrélation humaine. Notre évaluation des VLM de pointe révèle d'importants écarts de performance, positionnant VectorGym comme un cadre rigoureux pour faire progresser la génération de code visuel. VectorGym est disponible publiquement sur huggingface.co/datasets/ServiceNow/VectorGym.

English

We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.

VectorGym : Un benchmark multitâche pour la génération, l'esquisse et l'édition de code SVG

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Résumé

Support