OmniSVG: Een Uniform Model voor het Genereren van Schaalbare Vectorafbeeldingen

Samenvatting

Scalable Vector Graphics (SVG) is een belangrijk beeldformaat dat veel wordt gebruikt in grafisch ontwerp vanwege de resolutieonafhankelijkheid en bewerkbaarheid. Het onderzoek naar het genereren van hoogwaardige SVG heeft voortdurend aandacht getrokken van zowel ontwerpers als onderzoekers in de AIGC-gemeenschap. Bestaande methoden produceren echter ofwel ongestructureerde uitvoer met enorme rekenkosten, of zijn beperkt tot het genereren van monochrome iconen met overgesimplificeerde structuren. Om hoogwaardige en complexe SVG te produceren, stellen we OmniSVG voor, een uniform raamwerk dat gebruikmaakt van vooraf getrainde Vision-Language Models (VLMs) voor end-to-end multimodale SVG-generatie. Door SVG-commando's en coördinaten te parametriseren in discrete tokens, ontkoppelt OmniSVG structurele logica van laagwaardige geometrie voor efficiënte training, terwijl de expressiviteit van complexe SVG-structuren behouden blijft. Om de ontwikkeling van SVG-synthese verder te bevorderen, introduceren we MMSVG-2M, een multimodale dataset met twee miljoen rijk geannoteerde SVG-elementen, samen met een gestandaardiseerd evaluatieprotocol voor conditionele SVG-generatietaken. Uitgebreide experimenten tonen aan dat OmniSVG bestaande methoden overtreft en het potentieel aantoont voor integratie in professionele SVG-ontwerpwerkstromen.

English

Scalable Vector Graphics (SVG) is an important image format widely adopted in graphic design because of their resolution independence and editability. The study of generating high-quality SVG has continuously drawn attention from both designers and researchers in the AIGC community. However, existing methods either produces unstructured outputs with huge computational cost or is limited to generating monochrome icons of over-simplified structures. To produce high-quality and complex SVG, we propose OmniSVG, a unified framework that leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal SVG generation. By parameterizing SVG commands and coordinates into discrete tokens, OmniSVG decouples structural logic from low-level geometry for efficient training while maintaining the expressiveness of complex SVG structure. To further advance the development of SVG synthesis, we introduce MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets, along with a standardized evaluation protocol for conditional SVG generation tasks. Extensive experiments show that OmniSVG outperforms existing methods and demonstrates its potential for integration into professional SVG design workflows.

OmniSVG: Een Uniform Model voor het Genereren van Schaalbare Vectorafbeeldingen

OmniSVG: A Unified Scalable Vector Graphics Generation Model

Samenvatting

Support