DreamDistribution: Promptdistributie-leren voor tekst-naar-beeld diffusiemodellen
DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models
December 21, 2023
Auteurs: Brian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge
cs.AI
Samenvatting
De popularisering van Text-to-Image (T2I) diffusiemodellen maakt het mogelijk om hoogwaardige afbeeldingen te genereren op basis van tekstbeschrijvingen. Het genereren van diverse, gepersonaliseerde afbeeldingen met referentie-visuele attributen blijft echter een uitdaging. Dit werk richt zich op het personaliseren van T2I diffusiemodellen op een abstracter concept- of categorieniveau, waarbij gemeenschappelijke kenmerken van een set referentieafbeeldingen worden aangepast terwijl nieuwe instanties met voldoende variaties worden gecreëerd. We introduceren een oplossing die een vooraf getraind T2I diffusiemodel in staat stelt om een set zachte prompts te leren, waardoor het mogelijk wordt om nieuwe afbeeldingen te genereren door prompts te bemonsteren uit de geleerde distributie. Deze prompts bieden tekstgestuurde bewerkingsmogelijkheden en extra flexibiliteit bij het beheersen van variatie en het mengen van meerdere distributies. We tonen ook de aanpasbaarheid van de geleerde promptdistributie aan andere taken, zoals text-to-3D. Tot slot demonstreren we de effectiviteit van onze aanpak door middel van kwantitatieve analyse, inclusief automatische evaluatie en menselijke beoordeling. Projectwebsite: https://briannlongzhao.github.io/DreamDistribution
English
The popularization of Text-to-Image (T2I) diffusion models enables the
generation of high-quality images from text descriptions. However, generating
diverse customized images with reference visual attributes remains challenging.
This work focuses on personalizing T2I diffusion models at a more abstract
concept or category level, adapting commonalities from a set of reference
images while creating new instances with sufficient variations. We introduce a
solution that allows a pretrained T2I diffusion model to learn a set of soft
prompts, enabling the generation of novel images by sampling prompts from the
learned distribution. These prompts offer text-guided editing capabilities and
additional flexibility in controlling variation and mixing between multiple
distributions. We also show the adaptability of the learned prompt distribution
to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our
approach through quantitative analysis including automatic evaluation and human
assessment. Project website: https://briannlongzhao.github.io/DreamDistribution