HyperDreamBooth: HyperNetworks zur schnellen Personalisierung von Text-zu-Bild-Modellen
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
July 13, 2023
Autoren: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
cs.AI
Zusammenfassung
Personalisierung hat sich als ein zentraler Aspekt im Bereich der generativen KI etabliert, der die Synthese von Personen in verschiedenen Kontexten und Stilen ermöglicht, während gleichzeitig eine hohe Detailtreue zu ihren Identitäten gewahrt bleibt. Der Prozess der Personalisierung birgt jedoch inhärente Herausforderungen in Bezug auf Zeit- und Speicheranforderungen. Das Feinabstimmen jedes personalisierten Modells erfordert einen erheblichen GPU-Zeitaufwand, und das Speichern eines personalisierten Modells pro Person kann in Bezug auf die Speicherkapazität anspruchsvoll sein. Um diese Herausforderungen zu bewältigen, schlagen wir HyperDreamBooth vor – ein Hypernetzwerk, das in der Lage ist, effizient einen kleinen Satz personalisierter Gewichte aus einem einzelnen Bild einer Person zu generieren. Durch die Integration dieser Gewichte in das Diffusionsmodell, kombiniert mit schnellem Feinabstimmen, kann HyperDreamBooth das Gesicht einer Person in verschiedenen Kontexten und Stilen mit hoher Detailgenauigkeit erzeugen, während gleichzeitig das entscheidende Wissen des Modells über diverse Stile und semantische Modifikationen bewahrt wird. Unsere Methode erreicht die Personalisierung von Gesichtern in etwa 20 Sekunden, was 25-mal schneller ist als DreamBooth und 125-mal schneller als Textual Inversion, wobei nur ein einziges Referenzbild verwendet wird, bei gleicher Qualität und Stilvielfalt wie DreamBooth. Zudem erzeugt unsere Methode ein Modell, das 10.000-mal kleiner ist als ein normales DreamBooth-Modell. Projektseite: https://hyperdreambooth.github.io
English
Personalization has emerged as a prominent aspect within the field of
generative AI, enabling the synthesis of individuals in diverse contexts and
styles, while retaining high-fidelity to their identities. However, the process
of personalization presents inherent challenges in terms of time and memory
requirements. Fine-tuning each personalized model needs considerable GPU time
investment, and storing a personalized model per subject can be demanding in
terms of storage capacity. To overcome these challenges, we propose
HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of
personalized weights from a single image of a person. By composing these
weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth
can generate a person's face in various contexts and styles, with high subject
details while also preserving the model's crucial knowledge of diverse styles
and semantic modifications. Our method achieves personalization on faces in
roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual
Inversion, using as few as one reference image, with the same quality and style
diversity as DreamBooth. Also our method yields a model that is 10000x smaller
than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io