OmniSVG : Un modèle unifié de génération de graphiques vectoriels évolutifs

Résumé

Les graphiques vectoriels évolutifs (SVG) constituent un format d'image important largement adopté dans le domaine de la conception graphique en raison de leur indépendance à la résolution et de leur capacité d'édition. L'étude de la génération de SVG de haute qualité a continuellement attiré l'attention des concepteurs et des chercheurs de la communauté AIGC. Cependant, les méthodes existantes produisent soit des résultats non structurés avec un coût de calcul élevé, soit se limitent à générer des icônes monochromes aux structures trop simplifiées. Pour produire des SVG complexes et de haute qualité, nous proposons OmniSVG, un cadre unifié qui exploite des modèles vision-langage pré-entraînés (VLMs) pour la génération multimodale de SVG de bout en bout. En paramétrant les commandes et les coordonnées SVG en tokens discrets, OmniSVG découple la logique structurelle de la géométrie de bas niveau pour un entraînement efficace tout en conservant l'expressivité des structures SVG complexes. Pour faire progresser le développement de la synthèse SVG, nous introduisons MMSVG-2M, un ensemble de données multimodales contenant deux millions d'actifs SVG richement annotés, ainsi qu'un protocole d'évaluation standardisé pour les tâches de génération conditionnelle de SVG. Des expériences approfondies montrent qu'OmniSVG surpasse les méthodes existantes et démontre son potentiel d'intégration dans les flux de travail professionnels de conception SVG.

English

Scalable Vector Graphics (SVG) is an important image format widely adopted in graphic design because of their resolution independence and editability. The study of generating high-quality SVG has continuously drawn attention from both designers and researchers in the AIGC community. However, existing methods either produces unstructured outputs with huge computational cost or is limited to generating monochrome icons of over-simplified structures. To produce high-quality and complex SVG, we propose OmniSVG, a unified framework that leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal SVG generation. By parameterizing SVG commands and coordinates into discrete tokens, OmniSVG decouples structural logic from low-level geometry for efficient training while maintaining the expressiveness of complex SVG structure. To further advance the development of SVG synthesis, we introduce MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets, along with a standardized evaluation protocol for conditional SVG generation tasks. Extensive experiments show that OmniSVG outperforms existing methods and demonstrates its potential for integration into professional SVG design workflows.