BootPIG: Het opstarten van zero-shot gepersonaliseerde beeldgeneratie mogelijkheden in voorgetrainde diffusiemodellen

Samenvatting

Recente tekst-naar-beeld generatiemodellen hebben ongelooflijk succes geboekt in het genereren van afbeeldingen die nauwkeurig de invoerprompts volgen. De vereiste om woorden te gebruiken om een gewenst concept te beschrijven, biedt echter beperkte controle over het uiterlijk van de gegenereerde concepten. In dit werk pakken we dit tekort aan door een benadering voor te stellen om personalisatiemogelijkheden in bestaande tekst-naar-beeld diffusiemodellen mogelijk te maken. We introduceren een nieuwe architectuur (BootPIG) die een gebruiker in staat stelt referentieafbeeldingen van een object te verstrekken om het uiterlijk van een concept in de gegenereerde afbeeldingen te sturen. De voorgestelde BootPIG-architectuur brengt minimale wijzigingen aan in een vooraf getraind tekst-naar-beeld diffusiemodel en maakt gebruik van een apart UNet-model om de generaties naar het gewenste uiterlijk te sturen. We introduceren een trainingsprocedure waarmee we personalisatiemogelijkheden in de BootPIG-architectuur kunnen bootstrappen met behulp van gegevens die gegenereerd zijn uit vooraf getrainde tekst-naar-beeld modellen, LLM-chatagents en beeldsegmentatiemodellen. In tegenstelling tot bestaande methoden die meerdere dagen van voorafgaande training vereisen, kan de BootPIG-architectuur in ongeveer 1 uur worden getraind. Experimenten op de DreamBooth-dataset tonen aan dat BootPIG bestaande zero-shot-methoden overtreft en vergelijkbaar is met test-time finetuning benaderingen. Door middel van een gebruikersstudie valideren we de voorkeur voor BootPIG-generaties boven bestaande methoden, zowel in het behouden van de trouw aan het uiterlijk van het referentieobject als in het afstemmen op tekstuele prompts.

English

Recent text-to-image generation models have demonstrated incredible success in generating images that faithfully follow input prompts. However, the requirement of using words to describe a desired concept provides limited control over the appearance of the generated concepts. In this work, we address this shortcoming by proposing an approach to enable personalization capabilities in existing text-to-image diffusion models. We propose a novel architecture (BootPIG) that allows a user to provide reference images of an object in order to guide the appearance of a concept in the generated images. The proposed BootPIG architecture makes minimal modifications to a pretrained text-to-image diffusion model and utilizes a separate UNet model to steer the generations toward the desired appearance. We introduce a training procedure that allows us to bootstrap personalization capabilities in the BootPIG architecture using data generated from pretrained text-to-image models, LLM chat agents, and image segmentation models. In contrast to existing methods that require several days of pretraining, the BootPIG architecture can be trained in approximately 1 hour. Experiments on the DreamBooth dataset demonstrate that BootPIG outperforms existing zero-shot methods while being comparable with test-time finetuning approaches. Through a user study, we validate the preference for BootPIG generations over existing methods both in maintaining fidelity to the reference object's appearance and aligning with textual prompts.

BootPIG: Het opstarten van zero-shot gepersonaliseerde beeldgeneratie mogelijkheden in voorgetrainde diffusiemodellen

BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

Samenvatting

Support