OmniSVG: Унифицированная модель генерации масштабируемой векторной графики
OmniSVG: A Unified Scalable Vector Graphics Generation Model
April 8, 2025
Авторы: Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Аннотация
Масштабируемая векторная графика (SVG) является важным форматом изображений, широко используемым в графическом дизайне благодаря своей независимости от разрешения и возможности редактирования. Исследования в области генерации высококачественных SVG постоянно привлекают внимание как дизайнеров, так и исследователей в сообществе AIGC. Однако существующие методы либо создают неструктурированные результаты с огромными вычислительными затратами, либо ограничиваются генерацией монохромных иконок с чрезмерно упрощенной структурой. Для создания высококачественных и сложных SVG мы предлагаем OmniSVG — унифицированную платформу, которая использует предварительно обученные модели Vision-Language (VLM) для сквозной мультимодальной генерации SVG. Параметризуя команды и координаты SVG в дискретные токены, OmniSVG разделяет структурную логику и низкоуровневую геометрию для эффективного обучения, сохраняя при этом выразительность сложной структуры SVG. Для дальнейшего развития синтеза SVG мы представляем MMSVG-2M — мультимодальный набор данных, содержащий два миллиона богато аннотированных SVG-ресурсов, а также стандартизированный протокол оценки для задач условной генерации SVG. Многочисленные эксперименты показывают, что OmniSVG превосходит существующие методы и демонстрирует потенциал для интеграции в профессиональные рабочие процессы проектирования SVG.
English
Scalable Vector Graphics (SVG) is an important image format widely adopted in
graphic design because of their resolution independence and editability. The
study of generating high-quality SVG has continuously drawn attention from both
designers and researchers in the AIGC community. However, existing methods
either produces unstructured outputs with huge computational cost or is limited
to generating monochrome icons of over-simplified structures. To produce
high-quality and complex SVG, we propose OmniSVG, a unified framework that
leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal
SVG generation. By parameterizing SVG commands and coordinates into discrete
tokens, OmniSVG decouples structural logic from low-level geometry for
efficient training while maintaining the expressiveness of complex SVG
structure. To further advance the development of SVG synthesis, we introduce
MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets,
along with a standardized evaluation protocol for conditional SVG generation
tasks. Extensive experiments show that OmniSVG outperforms existing methods and
demonstrates its potential for integration into professional SVG design
workflows.Summary
AI-Generated Summary