HyperDreamBooth : HyperRéseaux pour la personnalisation rapide des modèles de texte-à-image

papers.abstract

La personnalisation est devenue un aspect prépondérant dans le domaine de l'IA générative, permettant la synthèse d'individus dans divers contextes et styles, tout en conservant une fidélité élevée à leurs identités. Cependant, le processus de personnalisation présente des défis inhérents en termes de temps et de mémoire requis. L'affinage de chaque modèle personnalisé nécessite un investissement considérable en temps GPU, et le stockage d'un modèle personnalisé par sujet peut être exigeant en termes de capacité de stockage. Pour surmonter ces défis, nous proposons HyperDreamBooth, un hyper-réseau capable de générer efficacement un petit ensemble de poids personnalisés à partir d'une seule image d'une personne. En composant ces poids dans le modèle de diffusion, couplé à un affinage rapide, HyperDreamBooth peut générer le visage d'une personne dans divers contextes et styles, avec des détails élevés sur le sujet tout en préservant les connaissances cruciales du modèle sur les styles divers et les modifications sémantiques. Notre méthode réalise la personnalisation des visages en environ 20 secondes, soit 25 fois plus rapide que DreamBooth et 125 fois plus rapide que Textual Inversion, en utilisant aussi peu qu'une seule image de référence, avec la même qualité et diversité de style que DreamBooth. De plus, notre méthode produit un modèle qui est 10 000 fois plus petit qu'un modèle DreamBooth normal. Page du projet : https://hyperdreambooth.github.io

English

Personalization has emerged as a prominent aspect within the field of generative AI, enabling the synthesis of individuals in diverse contexts and styles, while retaining high-fidelity to their identities. However, the process of personalization presents inherent challenges in terms of time and memory requirements. Fine-tuning each personalized model needs considerable GPU time investment, and storing a personalized model per subject can be demanding in terms of storage capacity. To overcome these challenges, we propose HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of personalized weights from a single image of a person. By composing these weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth can generate a person's face in various contexts and styles, with high subject details while also preserving the model's crucial knowledge of diverse styles and semantic modifications. Our method achieves personalization on faces in roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual Inversion, using as few as one reference image, with the same quality and style diversity as DreamBooth. Also our method yields a model that is 10000x smaller than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io

HyperDreamBooth : HyperRéseaux pour la personnalisation rapide des modèles de texte-à-image

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models

papers.abstract

Support