OmniSVG: Ein einheitliches Modell zur Erzeugung skalierbarer Vektorgrafiken
OmniSVG: A Unified Scalable Vector Graphics Generation Model
April 8, 2025
Autoren: Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang
cs.AI
Zusammenfassung
Scalable Vector Graphics (SVG) ist ein wichtiges Bildformat, das aufgrund seiner Auflösungsunabhängigkeit und Bearbeitbarkeit weit verbreitet in der Grafikdesign-Branche eingesetzt wird. Die Erzeugung hochwertiger SVGs hat kontinuierlich die Aufmerksamkeit von Designern und Forschern in der AIGC-Community auf sich gezogen. Bisherige Methoden erzeugen jedoch entweder unstrukturierte Ausgaben mit hohem Rechenaufwand oder sind auf die Generierung monochromer Icons mit stark vereinfachten Strukturen beschränkt. Um hochwertige und komplexe SVGs zu erzeugen, schlagen wir OmniSVG vor, ein einheitliches Framework, das vortrainierte Vision-Language-Modelle (VLMs) für die end-to-end multimodale SVG-Generierung nutzt. Durch die Parametrisierung von SVG-Befehlen und Koordinaten in diskrete Tokens entkoppelt OmniSVG die strukturelle Logik von der niedrigstufigen Geometrie, um ein effizientes Training bei gleichzeitiger Beibehaltung der Ausdrucksfähigkeit komplexer SVG-Strukturen zu ermöglichen. Um die Entwicklung der SVG-Synthese weiter voranzutreiben, führen wir MMSVG-2M ein, einen multimodalen Datensatz mit zwei Millionen reich annotierten SVG-Assets, zusammen mit einem standardisierten Bewertungsprotokoll für bedingte SVG-Generierungsaufgaben. Umfangreiche Experimente zeigen, dass OmniSVG bestehende Methoden übertrifft und sein Potenzial für die Integration in professionelle SVG-Design-Workflows unterstreicht.
English
Scalable Vector Graphics (SVG) is an important image format widely adopted in
graphic design because of their resolution independence and editability. The
study of generating high-quality SVG has continuously drawn attention from both
designers and researchers in the AIGC community. However, existing methods
either produces unstructured outputs with huge computational cost or is limited
to generating monochrome icons of over-simplified structures. To produce
high-quality and complex SVG, we propose OmniSVG, a unified framework that
leverages pre-trained Vision-Language Models (VLMs) for end-to-end multimodal
SVG generation. By parameterizing SVG commands and coordinates into discrete
tokens, OmniSVG decouples structural logic from low-level geometry for
efficient training while maintaining the expressiveness of complex SVG
structure. To further advance the development of SVG synthesis, we introduce
MMSVG-2M, a multimodal dataset with two million richly annotated SVG assets,
along with a standardized evaluation protocol for conditional SVG generation
tasks. Extensive experiments show that OmniSVG outperforms existing methods and
demonstrates its potential for integration into professional SVG design
workflows.Summary
AI-Generated Summary