BootPIG: Initialisierung von Zero-Shot-Personalisierter Bildgenerierung in vortrainierten Diffusionsmodellen
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models
January 25, 2024
Autoren: Senthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik
cs.AI
Zusammenfassung
Aktuelle Text-zu-Bild-Generierungsmodelle haben beeindruckende Erfolge bei der Erzeugung von Bildern gezeigt, die Eingabeaufforderungen treu folgen. Die Notwendigkeit, Wörter zur Beschreibung eines gewünschten Konzepts zu verwenden, bietet jedoch nur begrenzte Kontrolle über das Erscheinungsbild der generierten Konzepte. In dieser Arbeit gehen wir auf diese Schwäche ein, indem wir einen Ansatz vorschlagen, der Personalisierungsfähigkeiten in bestehenden Text-zu-Bild-Diffusionsmodellen ermöglicht. Wir schlagen eine neuartige Architektur (BootPIG) vor, die es einem Benutzer ermöglicht, Referenzbilder eines Objekts bereitzustellen, um das Erscheinungsbild eines Konzepts in den generierten Bildern zu steuern.
Die vorgeschlagene BootPIG-Architektur nimmt minimale Änderungen an einem vortrainierten Text-zu-Bild-Diffusionsmodell vor und nutzt ein separates UNet-Modell, um die Generierungen in Richtung des gewünschten Erscheinungsbilds zu lenken. Wir führen ein Trainingsverfahren ein, das es uns ermöglicht, Personalisierungsfähigkeiten in der BootPIG-Architektur mithilfe von Daten zu bootstrappen, die aus vortrainierten Text-zu-Bild-Modellen, LLM-Chat-Agenten und Bildsegmentierungsmodellen generiert wurden. Im Gegensatz zu bestehenden Methoden, die mehrere Tage Vorabtraining erfordern, kann die BootPIG-Architektur in etwa 1 Stunde trainiert werden. Experimente auf dem DreamBooth-Datensatz zeigen, dass BootPIG bestehende Zero-Shot-Methoden übertrifft und mit Testzeit-Finetuning-Ansätzen vergleichbar ist. Durch eine Benutzerstudie validieren wir die Präferenz für BootPIG-Generierungen gegenüber bestehenden Methoden sowohl in Bezug auf die Treue zum Erscheinungsbild des Referenzobjekts als auch auf die Ausrichtung an textuellen Aufforderungen.
English
Recent text-to-image generation models have demonstrated incredible success
in generating images that faithfully follow input prompts. However, the
requirement of using words to describe a desired concept provides limited
control over the appearance of the generated concepts. In this work, we address
this shortcoming by proposing an approach to enable personalization
capabilities in existing text-to-image diffusion models. We propose a novel
architecture (BootPIG) that allows a user to provide reference images of an
object in order to guide the appearance of a concept in the generated images.
The proposed BootPIG architecture makes minimal modifications to a pretrained
text-to-image diffusion model and utilizes a separate UNet model to steer the
generations toward the desired appearance. We introduce a training procedure
that allows us to bootstrap personalization capabilities in the BootPIG
architecture using data generated from pretrained text-to-image models, LLM
chat agents, and image segmentation models. In contrast to existing methods
that require several days of pretraining, the BootPIG architecture can be
trained in approximately 1 hour. Experiments on the DreamBooth dataset
demonstrate that BootPIG outperforms existing zero-shot methods while being
comparable with test-time finetuning approaches. Through a user study, we
validate the preference for BootPIG generations over existing methods both in
maintaining fidelity to the reference object's appearance and aligning with
textual prompts.