Stilanpassung der Text-zu-Vektor-Generierung mit Bild-Diffusions-Priors
Style Customization of Text-to-Vector Generation with Image Diffusion Priors
May 15, 2025
Autoren: Peiying Zhang, Nanxuan Zhao, Jing Liao
cs.AI
Zusammenfassung
Scalable Vector Graphics (SVGs) werden von Designern aufgrund ihrer
Auflösungsunabhängigkeit und gut organisierten Ebenenstruktur sehr geschätzt. Obwohl bestehende
Text-zu-Vektor (T2V)-Generierungsmethoden SVGs aus Textprompts erstellen können,
übersehen sie oft einen wichtigen Bedarf in praktischen Anwendungen: die
Stilanpassung, die entscheidend ist, um eine Sammlung von Vektorgrafiken mit
konsistentem visuellen Erscheinungsbild und kohärenter Ästhetik zu erzeugen. Die Erweiterung bestehender
T2V-Methoden für die Stilanpassung stellt bestimmte Herausforderungen dar.
Optimierungsbasierte T2V-Modelle können die Priors von Text-zu-Bild (T2I)-
Modellen für die Anpassung nutzen, haben jedoch Schwierigkeiten, die strukturelle Regelmäßigkeit beizubehalten.
Andererseits können Feed-Forward-T2V-Modelle die strukturelle Regelmäßigkeit sicherstellen,
doch sie stoßen auf Probleme bei der Trennung von Inhalt und Stil aufgrund von
begrenzten SVG-Trainingsdaten.
Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige zweistufige Stilanpassungs-
Pipeline für die SVG-Generierung vor, die die Vorteile sowohl von Feed-Forward-
T2V-Modellen als auch von T2I-Bildpriors nutzt. In der ersten Stufe trainieren wir ein T2V-Diffusionsmodell
mit einer Pfad-Level-Darstellung, um die strukturelle Regelmäßigkeit von SVGs zu gewährleisten,
während gleichzeitig vielfältige Ausdrucksmöglichkeiten erhalten bleiben. In der zweiten Stufe passen wir
das T2V-Diffusionsmodell an verschiedene Stile an, indem wir angepasste T2I-Modelle destillieren.
Durch die Integration dieser Techniken kann unsere Pipeline hochwertige und vielfältige SVGs
in benutzerdefinierten Stilen basierend auf Textprompts auf effiziente Feed-Forward-Weise erzeugen.
Die Wirksamkeit unserer Methode wurde durch umfangreiche Experimente bestätigt. Die Projektseite ist
https://customsvg.github.io.
English
Scalable Vector Graphics (SVGs) are highly favored by designers due to their
resolution independence and well-organized layer structure. Although existing
text-to-vector (T2V) generation methods can create SVGs from text prompts, they
often overlook an important need in practical applications: style
customization, which is vital for producing a collection of vector graphics
with consistent visual appearance and coherent aesthetics. Extending existing
T2V methods for style customization poses certain challenges.
Optimization-based T2V models can utilize the priors of text-to-image (T2I)
models for customization, but struggle with maintaining structural regularity.
On the other hand, feed-forward T2V models can ensure structural regularity,
yet they encounter difficulties in disentangling content and style due to
limited SVG training data.
To address these challenges, we propose a novel two-stage style customization
pipeline for SVG generation, making use of the advantages of both feed-forward
T2V models and T2I image priors. In the first stage, we train a T2V diffusion
model with a path-level representation to ensure the structural regularity of
SVGs while preserving diverse expressive capabilities. In the second stage, we
customize the T2V diffusion model to different styles by distilling customized
T2I models. By integrating these techniques, our pipeline can generate
high-quality and diverse SVGs in custom styles based on text prompts in an
efficient feed-forward manner. The effectiveness of our method has been
validated through extensive experiments. The project page is
https://customsvg.github.io.Summary
AI-Generated Summary