OmniSVG: Um Modelo Unificado de Geração de Gráficos Vetoriais Escaláveis
OmniSVG: A Unified Scalable Vector Graphics Generation Model
April 8, 2025
Autores: Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Resumo
Scalable Vector Graphics (SVG) é um formato de imagem importante amplamente adotado em design gráfico devido à sua independência de resolução e editabilidade. O estudo da geração de SVG de alta qualidade tem continuamente atraído a atenção de designers e pesquisadores na comunidade de AIGC. No entanto, os métodos existentes ou produzem saídas não estruturadas com um custo computacional elevado ou são limitados à geração de ícones monocromáticos com estruturas excessivamente simplificadas. Para produzir SVG de alta qualidade e complexos, propomos o OmniSVG, um framework unificado que aproveita modelos de visão e linguagem pré-treinados (VLMs) para a geração multimodal de SVG de ponta a ponta. Ao parametrizar comandos e coordenadas SVG em tokens discretos, o OmniSVG desacopla a lógica estrutural da geometria de baixo nível para um treinamento eficiente, mantendo a expressividade de estruturas SVG complexas. Para avançar ainda mais o desenvolvimento da síntese de SVG, introduzimos o MMSVG-2M, um conjunto de dados multimodal com dois milhões de ativos SVG ricamente anotados, juntamente com um protocolo de avaliação padronizado para tarefas de geração condicional de SVG. Experimentos extensivos mostram que o OmniSVG supera os métodos existentes e demonstra seu potencial para integração em fluxos de trabalho profissionais de design SVG.
English
Scalable Vector Graphics (SVG) is an important image format widely adopted in
graphic design because of their resolution independence and editability. The
study of generating high-quality SVG has continuously drawn attention from both
designers and researchers in the AIGC community. However, existing methods
either produces unstructured outputs with huge computational cost or is limited
to generating monochrome icons of over-simplified structures. To produce
high-quality and complex SVG, we propose OmniSVG, a unified framework that
leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal
SVG generation. By parameterizing SVG commands and coordinates into discrete
tokens, OmniSVG decouples structural logic from low-level geometry for
efficient training while maintaining the expressiveness of complex SVG
structure. To further advance the development of SVG synthesis, we introduce
MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets,
along with a standardized evaluation protocol for conditional SVG generation
tasks. Extensive experiments show that OmniSVG outperforms existing methods and
demonstrates its potential for integration into professional SVG design
workflows.Summary
AI-Generated Summary