이미지 확산 사전 지식을 활용한 텍스트-벡터 생성의 스타일 맞춤화
Style Customization of Text-to-Vector Generation with Image Diffusion Priors
May 15, 2025
저자: Peiying Zhang, Nanxuan Zhao, Jing Liao
cs.AI
초록
확장 가능한 벡터 그래픽(SVG)은 해상도 독립성과 잘 조직된 레이어 구조로 인해 디자이너들에게 높은 선호를 받고 있습니다. 기존의 텍스트-투-벡터(T2V) 생성 방법들은 텍스트 프롬프트로부터 SVG를 생성할 수 있지만, 실용적인 응용에서 중요한 요구 사항인 스타일 커스터마이제이션을 종종 간과합니다. 이는 일관된 시각적 외관과 조화로운 미학을 가진 벡터 그래픽 컬렉션을 생산하는 데 필수적입니다. 기존 T2V 방법을 스타일 커스터마이제이션으로 확장하는 것은 몇 가지 도전 과제를 제기합니다.
최적화 기반 T2V 모델은 텍스트-투-이미지(T2I) 모델의 사전 지식을 활용하여 커스터마이제이션을 수행할 수 있지만, 구조적 규칙성을 유지하는 데 어려움을 겪습니다. 반면, 피드-포워드 T2V 모델은 구조적 규칙성을 보장할 수 있지만, 제한된 SVG 학습 데이터로 인해 콘텐츠와 스타일을 분리하는 데 어려움을 겪습니다.
이러한 도전 과제를 해결하기 위해, 우리는 피드-포워드 T2V 모델과 T2I 이미지 사전 지식의 장점을 활용한 새로운 두 단계의 스타일 커스터마이제이션 파이프라인을 제안합니다. 첫 번째 단계에서는 다양한 표현 능력을 유지하면서 SVG의 구조적 규칙성을 보장하기 위해 경로 수준 표현을 가진 T2V 확산 모델을 학습시킵니다. 두 번째 단계에서는 커스터마이즈된 T2I 모델을 증류하여 T2V 확산 모델을 다양한 스타일로 커스터마이즈합니다. 이러한 기술을 통합함으로써, 우리의 파이프라인은 텍스트 프롬프트를 기반으로 효율적인 피드-포워드 방식으로 커스텀 스타일의 고품질이고 다양한 SVG를 생성할 수 있습니다. 우리의 방법의 효과는 광범위한 실험을 통해 검증되었습니다. 프로젝트 페이지는 https://customsvg.github.io에서 확인할 수 있습니다.
English
Scalable Vector Graphics (SVGs) are highly favored by designers due to their
resolution independence and well-organized layer structure. Although existing
text-to-vector (T2V) generation methods can create SVGs from text prompts, they
often overlook an important need in practical applications: style
customization, which is vital for producing a collection of vector graphics
with consistent visual appearance and coherent aesthetics. Extending existing
T2V methods for style customization poses certain challenges.
Optimization-based T2V models can utilize the priors of text-to-image (T2I)
models for customization, but struggle with maintaining structural regularity.
On the other hand, feed-forward T2V models can ensure structural regularity,
yet they encounter difficulties in disentangling content and style due to
limited SVG training data.
To address these challenges, we propose a novel two-stage style customization
pipeline for SVG generation, making use of the advantages of both feed-forward
T2V models and T2I image priors. In the first stage, we train a T2V diffusion
model with a path-level representation to ensure the structural regularity of
SVGs while preserving diverse expressive capabilities. In the second stage, we
customize the T2V diffusion model to different styles by distilling customized
T2I models. By integrating these techniques, our pipeline can generate
high-quality and diverse SVGs in custom styles based on text prompts in an
efficient feed-forward manner. The effectiveness of our method has been
validated through extensive experiments. The project page is
https://customsvg.github.io.