Настройка стиля в генерации текста в вектор с использованием априорных знаний о диффузии изображений
Style Customization of Text-to-Vector Generation with Image Diffusion Priors
May 15, 2025
Авторы: Peiying Zhang, Nanxuan Zhao, Jing Liao
cs.AI
Аннотация
Масштабируемая векторная графика (SVG) пользуется большой популярностью среди дизайнеров благодаря своей независимости от разрешения и хорошо организованной структуре слоев. Хотя существующие методы генерации текста в вектор (T2V) позволяют создавать SVG на основе текстовых запросов, они часто упускают важную потребность в практических приложениях: настройку стиля, которая крайне важна для создания коллекции векторной графики с единообразным визуальным видом и согласованной эстетикой. Расширение существующих методов T2V для настройки стиля сопряжено с определенными трудностями.
Оптимизационные модели T2V могут использовать априорные данные моделей текста в изображение (T2I) для настройки, но сталкиваются с проблемами в поддержании структурной регулярности. С другой стороны, прямые (feed-forward) модели T2V способны обеспечить структурную регулярность, однако испытывают сложности в разделении содержания и стиля из-за ограниченного объема данных для обучения SVG.
Для решения этих задач мы предлагаем новый двухэтапный конвейер настройки стиля для генерации SVG, объединяющий преимущества как прямых моделей T2V, так и априорных данных T2I. На первом этапе мы обучаем диффузионную модель T2V с представлением на уровне путей, чтобы обеспечить структурную регулярность SVG, сохраняя при этом разнообразие выразительных возможностей. На втором этапе мы настраиваем диффузионную модель T2V на различные стили путем дистилляции настроенных моделей T2I. Интегрируя эти методы, наш конвейер позволяет генерировать высококачественные и разнообразные SVG в пользовательских стилях на основе текстовых запросов в эффективном прямом режиме. Эффективность нашего метода подтверждена обширными экспериментами. Страница проекта доступна по адресу: https://customsvg.github.io.
English
Scalable Vector Graphics (SVGs) are highly favored by designers due to their
resolution independence and well-organized layer structure. Although existing
text-to-vector (T2V) generation methods can create SVGs from text prompts, they
often overlook an important need in practical applications: style
customization, which is vital for producing a collection of vector graphics
with consistent visual appearance and coherent aesthetics. Extending existing
T2V methods for style customization poses certain challenges.
Optimization-based T2V models can utilize the priors of text-to-image (T2I)
models for customization, but struggle with maintaining structural regularity.
On the other hand, feed-forward T2V models can ensure structural regularity,
yet they encounter difficulties in disentangling content and style due to
limited SVG training data.
To address these challenges, we propose a novel two-stage style customization
pipeline for SVG generation, making use of the advantages of both feed-forward
T2V models and T2I image priors. In the first stage, we train a T2V diffusion
model with a path-level representation to ensure the structural regularity of
SVGs while preserving diverse expressive capabilities. In the second stage, we
customize the T2V diffusion model to different styles by distilling customized
T2I models. By integrating these techniques, our pipeline can generate
high-quality and diverse SVGs in custom styles based on text prompts in an
efficient feed-forward manner. The effectiveness of our method has been
validated through extensive experiments. The project page is
https://customsvg.github.io.Summary
AI-Generated Summary