VectorGym: SVG 코드 생성, 스케치 및 편집을 위한 멀티태스크 벤치마크
VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing
February 22, 2026
저자: Juan Rodriguez, Haotian Zhang, Abhay Puri, Tianyang Zhang, Rishav Pramanik, Meng Lin, Xiaoqing Xie, Marco Terral, Darsh Kaushik, Aly Shariff, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli
cs.AI
초록
우리는 텍스트 및 스케치 기반 생성, 복잡한 편집, 시각적 이해를 아우르는 Scalable Vector Graphics(SVG) 종합 벤치마크 제품군인 VectorGym을 소개한다. VectorGym은 전문 디자인 워크플로우에 부합하는 현실적이고 도전적인 벤치마크의 부재를 해결한다. 우리의 벤치마크는 전문가가 직접 주석을 작성한 네 가지 과제로 구성된다: 새로운 Sketch2SVG 과제(VG-Sketch); 고차원 프리미티브를 활용한 복잡한 다단계 편집을 특징으로 하는 새로운 SVG 편집 데이터셋(VG-Edit); Text2SVG 생성(VG-Text); SVG 캡셔닝(VG-Cap). 합성 편집에 의존하는 기존 벤치마크와 달리, VectorGym은 의미론적 이해와 디자인 의도를 요구하는 금본위 인간 주석을 제공한다. 우리는 또한 렌더링 기반 보상을 사용하여 네 가지 과제를 공동으로 최적화하는 다중 과제 강화 학습 접근법을 제안한다. 커리큘럼 학습을 적용한 GRPO 기반의 우리 방법론은 Qwen3-VL 8B 모델을 훈련시켜 오픈소스 모델 중에서 최첨단 성능을 달성하며, Qwen3-VL 235B을 포함한 훨씬 더 큰 모델들을 능가하고 GPT-4o에 버금가는 성과를 보인다. 또한 SVG 생성을 위한 VLM-as-a-Judge 메트릭을 도입하였으며, 이는 인간 상관관계 연구를 통해 검증되었다. 최첨단 VLM에 대한 우리의 평가는 상당한 성능 격차를 드러내며, VectorGym을 시각적 코드 생성 발전을 위한 엄격한 프레임워크로 자리매김하게 한다. VectorGym은 huggingface.co/datasets/ServiceNow/VectorGym에서 공개적으로 이용 가능하다.
English
We introduce VectorGym, a comprehensive benchmark suite for Scalable Vector Graphics (SVG) that spans generation from text and sketches, complex editing, and visual understanding. VectorGym addresses the lack of realistic, challenging benchmarks aligned with professional design workflows. Our benchmark comprises four tasks with expert human-authored annotations: the novel Sketch2SVG task (VG-Sketch); a new SVG editing dataset (VG-Edit) featuring complex, multi-step edits with higher-order primitives; Text2SVG generation (VG-Text); and SVG captioning (VG-Cap). Unlike prior benchmarks that rely on synthetic edits, VectorGym provides gold-standard human annotations that require semantic understanding and design intent. We also propose a multi-task reinforcement learning approach that jointly optimizes across all four tasks using rendering-based rewards. Our method, built on GRPO with curriculum learning, trains a Qwen3-VL 8B model that achieves state-of-the-art performance among open-source models, surpassing much larger models including Qwen3-VL 235B and matching GPT-4o. We also introduce a VLM-as-a-Judge metric for SVG generation, validated through human correlation studies. Our evaluation of frontier VLMs reveals significant performance gaps, positioning VectorGym as a rigorous framework for advancing visual code generation. VectorGym is publicly available on huggingface.co/datasets/ServiceNow/VectorGym.