BootPIG: Avvio di Capacità di Generazione di Immagini Personalizzate Zero-shot nei Modelli di Diffusione Pre-addestrati
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models
January 25, 2024
Autori: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI
Abstract
I recenti modelli di generazione di immagini da testo hanno dimostrato un incredibile successo nel produrre immagini che seguono fedelmente i prompt di input. Tuttavia, la necessità di utilizzare parole per descrivere un concetto desiderato offre un controllo limitato sull'aspetto dei concetti generati. In questo lavoro, affrontiamo questa limitazione proponendo un approccio per abilitare capacità di personalizzazione nei modelli di diffusione testo-immagine esistenti. Proponiamo una nuova architettura (BootPIG) che consente a un utente di fornire immagini di riferimento di un oggetto per guidare l'aspetto di un concetto nelle immagini generate.
L'architettura BootPIG apporta modifiche minime a un modello di diffusione testo-immagine preaddestrato e utilizza un modello UNet separato per orientare le generazioni verso l'aspetto desiderato. Introduciamo una procedura di addestramento che ci permette di implementare capacità di personalizzazione nell'architettura BootPIG utilizzando dati generati da modelli testo-immagine preaddestrati, agenti di chat LLM e modelli di segmentazione delle immagini. A differenza dei metodi esistenti che richiedono diversi giorni di preaddestramento, l'architettura BootPIG può essere addestrata in circa 1 ora. Esperimenti sul dataset DreamBooth dimostrano che BootPIG supera i metodi zero-shot esistenti, risultando comparabile con approcci di fine-tuning al momento del test. Attraverso uno studio con utenti, validiamo la preferenza per le generazioni di BootPIG rispetto ai metodi esistenti, sia nel mantenere la fedeltà all'aspetto dell'oggetto di riferimento che nell'allinearsi ai prompt testuali.
English
Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.