BootPIG: Het opstarten van zero-shot gepersonaliseerde beeldgeneratie mogelijkheden in voorgetrainde diffusiemodellen
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models
January 25, 2024
Auteurs: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI
Samenvatting
Recente tekst-naar-beeld generatiemodellen hebben ongelooflijk succes geboekt in het genereren van afbeeldingen die nauwkeurig de invoerprompts volgen. De vereiste om woorden te gebruiken om een gewenst concept te beschrijven, biedt echter beperkte controle over het uiterlijk van de gegenereerde concepten. In dit werk pakken we dit tekort aan door een benadering voor te stellen om personalisatiemogelijkheden in bestaande tekst-naar-beeld diffusiemodellen mogelijk te maken. We introduceren een nieuwe architectuur (BootPIG) die een gebruiker in staat stelt referentieafbeeldingen van een object te verstrekken om het uiterlijk van een concept in de gegenereerde afbeeldingen te sturen.
De voorgestelde BootPIG-architectuur brengt minimale wijzigingen aan in een vooraf getraind tekst-naar-beeld diffusiemodel en maakt gebruik van een apart UNet-model om de generaties naar het gewenste uiterlijk te sturen. We introduceren een trainingsprocedure waarmee we personalisatiemogelijkheden in de BootPIG-architectuur kunnen bootstrappen met behulp van gegevens die gegenereerd zijn uit vooraf getrainde tekst-naar-beeld modellen, LLM-chatagents en beeldsegmentatiemodellen. In tegenstelling tot bestaande methoden die meerdere dagen van voorafgaande training vereisen, kan de BootPIG-architectuur in ongeveer 1 uur worden getraind. Experimenten op de DreamBooth-dataset tonen aan dat BootPIG bestaande zero-shot-methoden overtreft en vergelijkbaar is met test-time finetuning benaderingen. Door middel van een gebruikersstudie valideren we de voorkeur voor BootPIG-generaties boven bestaande methoden, zowel in het behouden van de trouw aan het uiterlijk van het referentieobject als in het afstemmen op tekstuele prompts.
English
Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.