ChatPaper.aiChatPaper

Personalización de Estilo en la Generación de Texto a Vector con Prior de Difusión de Imágenes

Style Customization of Text-to-Vector Generation with Image Diffusion Priors

May 15, 2025
Autores: Peiying Zhang, Nanxuan Zhao, Jing Liao
cs.AI

Resumen

Los gráficos vectoriales escalables (SVG) son altamente valorados por los diseñadores debido a su independencia de resolución y estructura de capas bien organizada. Aunque los métodos existentes de generación de texto a vector (T2V) pueden crear SVG a partir de indicaciones de texto, a menudo pasan por alto una necesidad importante en aplicaciones prácticas: la personalización de estilo, que es crucial para producir una colección de gráficos vectoriales con una apariencia visual consistente y una estética coherente. Extender los métodos T2V existentes para la personalización de estilo presenta ciertos desafíos. Los modelos T2V basados en optimización pueden utilizar los priors de los modelos de texto a imagen (T2I) para la personalización, pero luchan por mantener la regularidad estructural. Por otro lado, los modelos T2V de avance directo pueden garantizar la regularidad estructural, pero encuentran dificultades para separar el contenido y el estilo debido a los datos limitados de entrenamiento de SVG. Para abordar estos desafíos, proponemos una novedosa canalización de personalización de estilo en dos etapas para la generación de SVG, aprovechando las ventajas tanto de los modelos T2V de avance directo como de los priors de imagen T2I. En la primera etapa, entrenamos un modelo de difusión T2V con una representación a nivel de ruta para garantizar la regularidad estructural de los SVG mientras se preservan diversas capacidades expresivas. En la segunda etapa, personalizamos el modelo de difusión T2V a diferentes estilos mediante la destilación de modelos T2I personalizados. Al integrar estas técnicas, nuestra canalización puede generar SVG de alta calidad y diversos en estilos personalizados basados en indicaciones de texto de manera eficiente y de avance directo. La efectividad de nuestro método ha sido validada a través de extensos experimentos. La página del proyecto es https://customsvg.github.io.
English
Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence and well-organized layer structure. Although existing text-to-vector (T2V) generation methods can create SVGs from text prompts, they often overlook an important need in practical applications: style customization, which is vital for producing a collection of vector graphics with consistent visual appearance and coherent aesthetics. Extending existing T2V methods for style customization poses certain challenges. Optimization-based T2V models can utilize the priors of text-to-image (T2I) models for customization, but struggle with maintaining structural regularity. On the other hand, feed-forward T2V models can ensure structural regularity, yet they encounter difficulties in disentangling content and style due to limited SVG training data. To address these challenges, we propose a novel two-stage style customization pipeline for SVG generation, making use of the advantages of both feed-forward T2V models and T2I image priors. In the first stage, we train a T2V diffusion model with a path-level representation to ensure the structural regularity of SVGs while preserving diverse expressive capabilities. In the second stage, we customize the T2V diffusion model to different styles by distilling customized T2I models. By integrating these techniques, our pipeline can generate high-quality and diverse SVGs in custom styles based on text prompts in an efficient feed-forward manner. The effectiveness of our method has been validated through extensive experiments. The project page is https://customsvg.github.io.
PDF153May 16, 2025