OmniSVG : Un modèle unifié de génération de graphiques vectoriels évolutifs
OmniSVG: A Unified Scalable Vector Graphics Generation Model
April 8, 2025
Auteurs: Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Résumé
Les graphiques vectoriels évolutifs (SVG) constituent un format d'image important largement adopté dans le domaine de la conception graphique en raison de leur indépendance à la résolution et de leur capacité d'édition. L'étude de la génération de SVG de haute qualité a continuellement attiré l'attention des concepteurs et des chercheurs de la communauté AIGC. Cependant, les méthodes existantes produisent soit des résultats non structurés avec un coût de calcul élevé, soit se limitent à générer des icônes monochromes aux structures trop simplifiées. Pour produire des SVG complexes et de haute qualité, nous proposons OmniSVG, un cadre unifié qui exploite des modèles vision-langage pré-entraînés (VLMs) pour la génération multimodale de SVG de bout en bout. En paramétrant les commandes et les coordonnées SVG en tokens discrets, OmniSVG découple la logique structurelle de la géométrie de bas niveau pour un entraînement efficace tout en conservant l'expressivité des structures SVG complexes. Pour faire progresser le développement de la synthèse SVG, nous introduisons MMSVG-2M, un ensemble de données multimodales contenant deux millions d'actifs SVG richement annotés, ainsi qu'un protocole d'évaluation standardisé pour les tâches de génération conditionnelle de SVG. Des expériences approfondies montrent qu'OmniSVG surpasse les méthodes existantes et démontre son potentiel d'intégration dans les flux de travail professionnels de conception SVG.
English
Scalable Vector Graphics (SVG) is an important image format widely adopted in
graphic design because of their resolution independence and editability. The
study of generating high-quality SVG has continuously drawn attention from both
designers and researchers in the AIGC community. However, existing methods
either produces unstructured outputs with huge computational cost or is limited
to generating monochrome icons of over-simplified structures. To produce
high-quality and complex SVG, we propose OmniSVG, a unified framework that
leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal
SVG generation. By parameterizing SVG commands and coordinates into discrete
tokens, OmniSVG decouples structural logic from low-level geometry for
efficient training while maintaining the expressiveness of complex SVG
structure. To further advance the development of SVG synthesis, we introduce
MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets,
along with a standardized evaluation protocol for conditional SVG generation
tasks. Extensive experiments show that OmniSVG outperforms existing methods and
demonstrates its potential for integration into professional SVG design
workflows.Summary
AI-Generated Summary