Personalizzazione dello Stile nella Generazione da Testo a Vettore con Prior di Diffusione di Immagini

Abstract

Le Scalable Vector Graphics (SVG) sono molto apprezzate dai designer grazie alla loro indipendenza dalla risoluzione e alla struttura dei livelli ben organizzata. Sebbene i metodi esistenti di generazione da testo a vettoriale (T2V) possano creare SVG a partire da prompt testuali, spesso trascurano un'esigenza importante nelle applicazioni pratiche: la personalizzazione dello stile, che è fondamentale per produrre una raccolta di grafiche vettoriali con un aspetto visivo coerente e un'estetica armoniosa. Estendere i metodi T2V esistenti per la personalizzazione dello stile presenta alcune sfide. I modelli T2V basati sull'ottimizzazione possono sfruttare i priori dei modelli da testo a immagine (T2I) per la personalizzazione, ma faticano a mantenere la regolarità strutturale. D'altra parte, i modelli T2V feed-forward possono garantire la regolarità strutturale, ma incontrano difficoltà nel separare contenuto e stile a causa dei dati di addestramento SVG limitati. Per affrontare queste sfide, proponiamo una nuova pipeline di personalizzazione dello stile in due fasi per la generazione di SVG, sfruttando i vantaggi sia dei modelli T2V feed-forward che dei priori delle immagini T2I. Nella prima fase, addestriamo un modello di diffusione T2V con una rappresentazione a livello di percorso per garantire la regolarità strutturale delle SVG preservando al contempo capacità espressive diversificate. Nella seconda fase, personalizziamo il modello di diffusione T2V per diversi stili distillando modelli T2I personalizzati. Integrando queste tecniche, la nostra pipeline può generare SVG di alta qualità e diversificate in stili personalizzati basati su prompt testuali in modo efficiente e feed-forward. L'efficacia del nostro metodo è stata validata attraverso esperimenti estensivi. La pagina del progetto è https://customsvg.github.io.

English

Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence and well-organized layer structure. Although existing text-to-vector (T2V) generation methods can create SVGs from text prompts, they often overlook an important need in practical applications: style customization, which is vital for producing a collection of vector graphics with consistent visual appearance and coherent aesthetics. Extending existing T2V methods for style customization poses certain challenges. Optimization-based T2V models can utilize the priors of text-to-image (T2I) models for customization, but struggle with maintaining structural regularity. On the other hand, feed-forward T2V models can ensure structural regularity, yet they encounter difficulties in disentangling content and style due to limited SVG training data. To address these challenges, we propose a novel two-stage style customization pipeline for SVG generation, making use of the advantages of both feed-forward T2V models and T2I image priors. In the first stage, we train a T2V diffusion model with a path-level representation to ensure the structural regularity of SVGs while preserving diverse expressive capabilities. In the second stage, we customize the T2V diffusion model to different styles by distilling customized T2I models. By integrating these techniques, our pipeline can generate high-quality and diverse SVGs in custom styles based on text prompts in an efficient feed-forward manner. The effectiveness of our method has been validated through extensive experiments. The project page is https://customsvg.github.io.

Personalizzazione dello Stile nella Generazione da Testo a Vettore con Prior di Diffusione di Immagini

Style Customization of Text-to-Vector Generation with Image Diffusion Priors

Abstract

Support