VectorGym: Un Punto de Referencia Multitarea para la Generación, Dibujo y Edición de Código SVG

Resumen

Presentamos VectorGym, un conjunto integral de puntos de referencia para Gráficos Vectoriales Escalables (SVG) que abarca la generación a partir de texto y bocetos, la edición compleja y la comprensión visual. VectorGym aborda la falta de puntos de referencia realistas y desafiantes alineados con los flujos de trabajo de diseño profesional. Nuestro benchmark comprende cuatro tareas con anotaciones expertas creadas por humanos: la novedosa tarea Sketch2SVG (VG-Sketch); un nuevo conjunto de datos para edición de SVG (VG-Edit) que presenta ediciones complejas y multi-etapa con primitivas de orden superior; generación Text2SVG (VG-Text); y descripción de SVG (VG-Cap). A diferencia de benchmarks anteriores que dependen de ediciones sintéticas, VectorGym proporciona anotaciones humanas de referencia que requieren comprensión semántica e intención de diseño. También proponemos un enfoque de aprendizaje por refuerzo multitarea que optimiza conjuntamente las cuatro tareas utilizando recompensas basadas en renderizado. Nuestro método, construido sobre GRPO con aprendizaje curricular, entrena un modelo Qwen3-VL 8B que logra un rendimiento de vanguardia entre los modelos de código abierto, superando a modelos mucho más grandes, incluidos Qwen3-VL 235B, e igualando a GPT-4o. También introducimos una métrica VLM-como-Juez para la generación de SVG, validada mediante estudios de correlación humana. Nuestra evaluación de los VLMs de última generación revela brechas de rendimiento significativas, posicionando a VectorGym como un marco riguroso para avanzar en la generación de código visual. VectorGym está disponible públicamente en huggingface.co/datasets/ServiceNow/VectorGym.

English

We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.

VectorGym: Un Punto de Referencia Multitarea para la Generación, Dibujo y Edición de Código SVG

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Resumen

Support