HyperDreamBooth : HyperRéseaux pour la personnalisation rapide des modèles de texte-à-image
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
July 13, 2023
Auteurs: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
cs.AI
Résumé
La personnalisation est devenue un aspect prépondérant dans le domaine de l'IA générative, permettant la synthèse d'individus dans divers contextes et styles, tout en conservant une fidélité élevée à leurs identités. Cependant, le processus de personnalisation présente des défis inhérents en termes de temps et de mémoire requis. L'affinage de chaque modèle personnalisé nécessite un investissement considérable en temps GPU, et le stockage d'un modèle personnalisé par sujet peut être exigeant en termes de capacité de stockage. Pour surmonter ces défis, nous proposons HyperDreamBooth, un hyper-réseau capable de générer efficacement un petit ensemble de poids personnalisés à partir d'une seule image d'une personne. En composant ces poids dans le modèle de diffusion, couplé à un affinage rapide, HyperDreamBooth peut générer le visage d'une personne dans divers contextes et styles, avec des détails élevés sur le sujet tout en préservant les connaissances cruciales du modèle sur les styles divers et les modifications sémantiques. Notre méthode réalise la personnalisation des visages en environ 20 secondes, soit 25 fois plus rapide que DreamBooth et 125 fois plus rapide que Textual Inversion, en utilisant aussi peu qu'une seule image de référence, avec la même qualité et diversité de style que DreamBooth. De plus, notre méthode produit un modèle qui est 10 000 fois plus petit qu'un modèle DreamBooth normal. Page du projet : https://hyperdreambooth.github.io
English
Personalization has emerged as a prominent aspect within the field of
generative AI, enabling the synthesis of individuals in diverse contexts and
styles, while retaining high-fidelity to their identities. However, the process
of personalization presents inherent challenges in terms of time and memory
requirements. Fine-tuning each personalized model needs considerable GPU time
investment, and storing a personalized model per subject can be demanding in
terms of storage capacity. To overcome these challenges, we propose
HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of
personalized weights from a single image of a person. By composing these
weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth
can generate a person's face in various contexts and styles, with high subject
details while also preserving the model's crucial knowledge of diverse styles
and semantic modifications. Our method achieves personalization on faces in
roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual
Inversion, using as few as one reference image, with the same quality and style
diversity as DreamBooth. Also our method yields a model that is 10000x smaller
than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io