OmniSVG: Un Modelo Unificado para la Generación de Gráficos Vectoriales Escalables
OmniSVG: A Unified Scalable Vector Graphics Generation Model
April 8, 2025
Autores: Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Resumen
Los gráficos vectoriales escalables (SVG) son un formato de imagen importante ampliamente adoptado en el diseño gráfico debido a su independencia de resolución y capacidad de edición. El estudio de la generación de SVG de alta calidad ha atraído continuamente la atención tanto de diseñadores como de investigadores en la comunidad de AIGC. Sin embargo, los métodos existentes producen salidas no estructuradas con un enorme costo computacional o se limitan a generar iconos monocromáticos con estructuras demasiado simplificadas. Para producir SVG de alta calidad y complejidad, proponemos OmniSVG, un marco unificado que aprovecha modelos de visión y lenguaje preentrenados (VLMs) para la generación multimodal de SVG de extremo a extremo. Al parametrizar comandos y coordenadas de SVG en tokens discretos, OmniSVG desacopla la lógica estructural de la geometría de bajo nivel para un entrenamiento eficiente, manteniendo al mismo tiempo la expresividad de estructuras SVG complejas. Para impulsar aún más el desarrollo de la síntesis de SVG, presentamos MMSVG-2M, un conjunto de datos multimodal con dos millones de recursos SVG ricamente anotados, junto con un protocolo de evaluación estandarizado para tareas de generación de SVG condicional. Experimentos exhaustivos muestran que OmniSVG supera a los métodos existentes y demuestra su potencial para integrarse en flujos de trabajo profesionales de diseño SVG.
English
Scalable Vector Graphics (SVG) is an important image format widely adopted in
graphic design because of their resolution independence and editability. The
study of generating high-quality SVG has continuously drawn attention from both
designers and researchers in the AIGC community. However, existing methods
either produces unstructured outputs with huge computational cost or is limited
to generating monochrome icons of over-simplified structures. To produce
high-quality and complex SVG, we propose OmniSVG, a unified framework that
leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal
SVG generation. By parameterizing SVG commands and coordinates into discrete
tokens, OmniSVG decouples structural logic from low-level geometry for
efficient training while maintaining the expressiveness of complex SVG
structure. To further advance the development of SVG synthesis, we introduce
MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets,
along with a standardized evaluation protocol for conditional SVG generation
tasks. Extensive experiments show that OmniSVG outperforms existing methods and
demonstrates its potential for integration into professional SVG design
workflows.Summary
AI-Generated Summary