Personnalisation du style dans la génération de texte-à-vecteur avec des préalables de diffusion d'images
Style Customization of Text-to-Vector Generation with Image Diffusion Priors
May 15, 2025
Auteurs: Peiying Zhang, Nanxuan Zhao, Jing Liao
cs.AI
Résumé
Les graphiques vectoriels évolutifs (SVG) sont très appréciés par les concepteurs en raison de leur indépendance à la résolution et de leur structure de couches bien organisée. Bien que les méthodes existantes de génération de texte à vecteur (T2V) puissent créer des SVG à partir de prompts textuels, elles négligent souvent un besoin important dans les applications pratiques : la personnalisation du style, qui est essentielle pour produire une collection de graphiques vectoriels avec une apparence visuelle cohérente et une esthétique harmonieuse. L'extension des méthodes T2V existantes pour la personnalisation du style présente certains défis. Les modèles T2V basés sur l'optimisation peuvent utiliser les a priori des modèles de texte à image (T2I) pour la personnalisation, mais peinent à maintenir une régularité structurelle. D'autre part, les modèles T2V à propagation directe peuvent assurer une régularité structurelle, mais rencontrent des difficultés à dissocier le contenu et le style en raison de données d'entraînement SVG limitées.
Pour relever ces défis, nous proposons un nouveau pipeline de personnalisation de style en deux étapes pour la génération de SVG, tirant parti des avantages des modèles T2V à propagation directe et des a priori d'image T2I. Dans la première étape, nous entraînons un modèle de diffusion T2V avec une représentation au niveau des tracés pour garantir la régularité structurelle des SVG tout en préservant des capacités expressives variées. Dans la deuxième étape, nous personnalisons le modèle de diffusion T2V à différents styles en distillant des modèles T2I personnalisés. En intégrant ces techniques, notre pipeline peut générer des SVG de haute qualité et diversifiés dans des styles personnalisés à partir de prompts textuels de manière efficace et à propagation directe. L'efficacité de notre méthode a été validée par des expériences approfondies. La page du projet est disponible à l'adresse https://customsvg.github.io.
English
Scalable Vector Graphics (SVGs) are highly favored by designers due to their
resolution independence and well-organized layer structure. Although existing
text-to-vector (T2V) generation methods can create SVGs from text prompts, they
often overlook an important need in practical applications: style
customization, which is vital for producing a collection of vector graphics
with consistent visual appearance and coherent aesthetics. Extending existing
T2V methods for style customization poses certain challenges.
Optimization-based T2V models can utilize the priors of text-to-image (T2I)
models for customization, but struggle with maintaining structural regularity.
On the other hand, feed-forward T2V models can ensure structural regularity,
yet they encounter difficulties in disentangling content and style due to
limited SVG training data.
To address these challenges, we propose a novel two-stage style customization
pipeline for SVG generation, making use of the advantages of both feed-forward
T2V models and T2I image priors. In the first stage, we train a T2V diffusion
model with a path-level representation to ensure the structural regularity of
SVGs while preserving diverse expressive capabilities. In the second stage, we
customize the T2V diffusion model to different styles by distilling customized
T2I models. By integrating these techniques, our pipeline can generate
high-quality and diverse SVGs in custom styles based on text prompts in an
efficient feed-forward manner. The effectiveness of our method has been
validated through extensive experiments. The project page is
https://customsvg.github.io.Summary
AI-Generated Summary