OmniSVG: Een Uniform Model voor het Genereren van Schaalbare Vectorafbeeldingen
OmniSVG: A Unified Scalable Vector Graphics Generation Model
April 8, 2025
Auteurs: Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Samenvatting
Scalable Vector Graphics (SVG) is een belangrijk beeldformaat dat veel wordt gebruikt in grafisch ontwerp vanwege de resolutieonafhankelijkheid en bewerkbaarheid. Het onderzoek naar het genereren van hoogwaardige SVG heeft voortdurend aandacht getrokken van zowel ontwerpers als onderzoekers in de AIGC-gemeenschap. Bestaande methoden produceren echter ofwel ongestructureerde uitvoer met enorme rekenkosten, of zijn beperkt tot het genereren van monochrome iconen met overgesimplificeerde structuren. Om hoogwaardige en complexe SVG te produceren, stellen we OmniSVG voor, een uniform raamwerk dat gebruikmaakt van vooraf getrainde Vision-Language Models (VLMs) voor end-to-end multimodale SVG-generatie. Door SVG-commando's en coördinaten te parametriseren in discrete tokens, ontkoppelt OmniSVG structurele logica van laagwaardige geometrie voor efficiënte training, terwijl de expressiviteit van complexe SVG-structuren behouden blijft. Om de ontwikkeling van SVG-synthese verder te bevorderen, introduceren we MMSVG-2M, een multimodale dataset met twee miljoen rijk geannoteerde SVG-elementen, samen met een gestandaardiseerd evaluatieprotocol voor conditionele SVG-generatietaken. Uitgebreide experimenten tonen aan dat OmniSVG bestaande methoden overtreft en het potentieel aantoont voor integratie in professionele SVG-ontwerpwerkstromen.
English
Scalable Vector Graphics (SVG) is an important image format widely adopted in
graphic design because of their resolution independence and editability. The
study of generating high-quality SVG has continuously drawn attention from both
designers and researchers in the AIGC community. However, existing methods
either produces unstructured outputs with huge computational cost or is limited
to generating monochrome icons of over-simplified structures. To produce
high-quality and complex SVG, we propose OmniSVG, a unified framework that
leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal
SVG generation. By parameterizing SVG commands and coordinates into discrete
tokens, OmniSVG decouples structural logic from low-level geometry for
efficient training while maintaining the expressiveness of complex SVG
structure. To further advance the development of SVG synthesis, we introduce
MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets,
along with a standardized evaluation protocol for conditional SVG generation
tasks. Extensive experiments show that OmniSVG outperforms existing methods and
demonstrates its potential for integration into professional SVG design
workflows.Summary
AI-Generated Summary