Personalização de Estilo na Geração de Texto para Vetor com Prioridades de Difusão de Imagem

Resumo

Os gráficos vetoriais escaláveis (SVGs) são altamente valorizados por designers devido à sua independência de resolução e estrutura de camadas bem organizada. Embora os métodos existentes de geração de texto para vetor (T2V) possam criar SVGs a partir de prompts de texto, eles frequentemente negligenciam uma necessidade importante em aplicações práticas: a personalização de estilo, que é crucial para produzir uma coleção de gráficos vetoriais com aparência visual consistente e estética coerente. A extensão dos métodos T2V existentes para personalização de estilo apresenta certos desafios. Modelos T2V baseados em otimização podem utilizar os priors de modelos de texto para imagem (T2I) para personalização, mas lutam para manter a regularidade estrutural. Por outro lado, modelos T2V de avanço direto podem garantir regularidade estrutural, mas enfrentam dificuldades em separar conteúdo e estilo devido à limitação de dados de treinamento de SVG. Para abordar esses desafios, propomos um novo pipeline de personalização de estilo em duas etapas para geração de SVG, aproveitando as vantagens tanto dos modelos T2V de avanço direto quanto dos priors de imagem T2I. Na primeira etapa, treinamos um modelo de difusão T2V com uma representação em nível de caminho para garantir a regularidade estrutural dos SVGs, mantendo ao mesmo tempo capacidades expressivas diversas. Na segunda etapa, personalizamos o modelo de difusão T2V para diferentes estilos, destilando modelos T2I personalizados. Ao integrar essas técnicas, nosso pipeline pode gerar SVGs de alta qualidade e diversificados em estilos personalizados com base em prompts de texto de maneira eficiente e de avanço direto. A eficácia do nosso método foi validada por meio de extensos experimentos. A página do projeto está disponível em https://customsvg.github.io.

English

Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence and well-organized layer structure. Although existing text-to-vector (T2V) generation methods can create SVGs from text prompts, they often overlook an important need in practical applications: style customization, which is vital for producing a collection of vector graphics with consistent visual appearance and coherent aesthetics. Extending existing T2V methods for style customization poses certain challenges. Optimization-based T2V models can utilize the priors of text-to-image (T2I) models for customization, but struggle with maintaining structural regularity. On the other hand, feed-forward T2V models can ensure structural regularity, yet they encounter difficulties in disentangling content and style due to limited SVG training data. To address these challenges, we propose a novel two-stage style customization pipeline for SVG generation, making use of the advantages of both feed-forward T2V models and T2I image priors. In the first stage, we train a T2V diffusion model with a path-level representation to ensure the structural regularity of SVGs while preserving diverse expressive capabilities. In the second stage, we customize the T2V diffusion model to different styles by distilling customized T2I models. By integrating these techniques, our pipeline can generate high-quality and diverse SVGs in custom styles based on text prompts in an efficient feed-forward manner. The effectiveness of our method has been validated through extensive experiments. The project page is https://customsvg.github.io.

Personalização de Estilo na Geração de Texto para Vetor com Prioridades de Difusão de Imagem

Style Customization of Text-to-Vector Generation with Image Diffusion Priors

Resumo

Support