DreamDistribution: 텍스트-이미지 확산 모델을 위한 프롬프트 분포 학습
DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models
December 21, 2023
저자: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI
초록
텍스트-이미지(T2I) 확산 모델의 대중화로 인해 텍스트 설명에서 고품질 이미지를 생성할 수 있게 되었습니다. 그러나 참조 시각적 속성을 포함한 다양한 맞춤형 이미지를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구는 보다 추상적인 개념 또는 범주 수준에서 T2I 확산 모델을 개인화하는 데 초점을 맞추며, 참조 이미지 집합에서 공통점을 적응시키면서도 충분한 변형을 가진 새로운 인스턴스를 생성합니다. 우리는 사전 훈련된 T2I 확산 모델이 소프트 프롬프트 집합을 학습할 수 있도록 하는 솔루션을 제안하며, 학습된 분포에서 프롬프트를 샘플링하여 새로운 이미지를 생성할 수 있게 합니다. 이러한 프롬프트는 텍스트 기반 편집 기능을 제공하며, 여러 분포 간의 변형과 혼합을 제어하는 데 추가적인 유연성을 제공합니다. 또한, 학습된 프롬프트 분포가 텍스트-3D와 같은 다른 작업에 적용 가능함을 보여줍니다. 마지막으로, 자동 평가와 인간 평가를 포함한 정량적 분석을 통해 우리의 접근 방식의 효과성을 입증합니다. 프로젝트 웹사이트: https://briannlongzhao.github.io/DreamDistribution
English
The popularization of Text-to-Image (T2I) diffusion models enables the
generation of high-quality images from text descriptions. However, generating
diverse customized images with reference visual attributes remains challenging.
This work focuses on personalizing T2I diffusion models at a more abstract
concept or category level, adapting commonalities from a set of reference
images while creating new instances with sufficient variations. We introduce a
solution that allows a pretrained T2I diffusion model to learn a set of soft
prompts, enabling the generation of novel images by sampling prompts from the
learned distribution. These prompts offer text-guided editing capabilities and
additional flexibility in controlling variation and mixing between multiple
distributions. We also show the adaptability of the learned prompt distribution
to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our
approach through quantitative analysis including automatic evaluation and human
assessment. Project website: https://briannlongzhao.github.io/DreamDistribution