VectorGym: Um Benchmark Multitarefa para Geração de Código SVG, Desenho e Edição

Resumo

Apresentamos o VectorGym, uma suíte abrangente de *benchmarks* para Gráficos Vetoriais Escaláveis (SVG) que abrange a geração a partir de texto e esboços, edição complexa e compreensão visual. O VectorGym aborda a carência de *benchmarks* realistas e desafiadores alinhados com os fluxos de trabalho de design profissional. Nossa suíte compreende quatro tarefas com anotações especializadas elaboradas por humanos: a nova tarefa Sketch2SVG (VG-Sketch); um novo conjunto de dados para edição de SVG (VG-Edit) com edições complexas e multi-etapas envolvendo primitivas de ordem superior; geração Text2SVG (VG-Text); e legendagem de SVG (VG-Cap). Diferente de *benchmarks* anteriores que dependem de edições sintéticas, o VectorGym fornece anotações humanas de referência que exigem compreensão semântica e intenção de design. Também propomos uma abordagem de aprendizado por reforço multi-tarefa que otimiza conjuntamente todas as quatro tarefas usando recompensas baseadas em renderização. Nosso método, construído sobre GRPO com aprendizado curricular, treina um modelo Qwen3-VL 8B que alcança desempenho de ponta entre os modelos de código aberto, superando modelos muito maiores, incluindo o Qwen3-VL 235B, e equiparando-se ao GPT-4o. Também introduzimos uma métrica VLM-como-Juiz para geração de SVG, validada através de estudos de correlação humana. Nossa avaliação de VLMs de fronteira revela lacunas significativas de desempenho, posicionando o VectorGym como uma estrutura rigorosa para o avanço da geração de código visual. O VectorGym está publicamente disponível em huggingface.co/datasets/ServiceNow/VectorGym.

English

We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.