HyperDreamBooth: HyperReti per la Personalizzazione Rapida di Modelli di Generazione di Immagini da Testo
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
July 13, 2023
Autori: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
cs.AI
Abstract
La personalizzazione è emersa come un aspetto di rilievo nel campo dell'IA generativa, consentendo la sintesi di individui in contesti e stili diversi, mantenendo un'elevata fedeltà alle loro identità. Tuttavia, il processo di personalizzazione presenta sfide intrinseche in termini di tempo e requisiti di memoria. Il fine-tuning di ciascun modello personalizzato richiede un notevole investimento di tempo GPU, e la memorizzazione di un modello personalizzato per soggetto può essere impegnativa in termini di capacità di archiviazione. Per superare queste sfide, proponiamo HyperDreamBooth, un hypernetwork in grado di generare in modo efficiente un piccolo insieme di pesi personalizzati a partire da una singola immagine di una persona. Componendo questi pesi nel modello di diffusione, unitamente a un rapido fine-tuning, HyperDreamBooth può generare il volto di una persona in vari contesti e stili, con dettagli soggettivi di alta qualità, preservando al contempo la conoscenza cruciale del modello riguardo a stili diversi e modifiche semantiche. Il nostro metodo raggiunge la personalizzazione dei volti in circa 20 secondi, 25 volte più veloce di DreamBooth e 125 volte più veloce di Textual Inversion, utilizzando anche una sola immagine di riferimento, con la stessa qualità e diversità di stile di DreamBooth. Inoltre, il nostro metodo produce un modello che è 10.000 volte più piccolo di un normale modello DreamBooth. Pagina del progetto: https://hyperdreambooth.github.io
English
Personalization has emerged as a prominent aspect within the field of
generative AI, enabling the synthesis of individuals in diverse contexts and
styles, while retaining high-fidelity to their identities. However, the process
of personalization presents inherent challenges in terms of time and memory
requirements. Fine-tuning each personalized model needs considerable GPU time
investment, and storing a personalized model per subject can be demanding in
terms of storage capacity. To overcome these challenges, we propose
HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of
personalized weights from a single image of a person. By composing these
weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth
can generate a person's face in various contexts and styles, with high subject
details while also preserving the model's crucial knowledge of diverse styles
and semantic modifications. Our method achieves personalization on faces in
roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual
Inversion, using as few as one reference image, with the same quality and style
diversity as DreamBooth. Also our method yields a model that is 10000x smaller
than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io