HyperDreamBooth: Hiperredes para la personalización rápida de modelos de texto a imagen
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
July 13, 2023
Autores: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
cs.AI
Resumen
La personalización ha surgido como un aspecto destacado en el campo de la IA generativa, permitiendo la síntesis de individuos en diversos contextos y estilos, mientras se mantiene una alta fidelidad a sus identidades. Sin embargo, el proceso de personalización presenta desafíos inherentes en términos de tiempo y requisitos de memoria. El ajuste fino de cada modelo personalizado requiere una inversión considerable de tiempo en GPU, y almacenar un modelo personalizado por sujeto puede ser exigente en términos de capacidad de almacenamiento. Para superar estos desafíos, proponemos HyperDreamBooth, una hiperred capaz de generar eficientemente un pequeño conjunto de pesos personalizados a partir de una sola imagen de una persona. Al componer estos pesos en el modelo de difusión, junto con un ajuste fino rápido, HyperDreamBooth puede generar el rostro de una persona en varios contextos y estilos, con detalles precisos del sujeto, mientras preserva el conocimiento crucial del modelo sobre diversos estilos y modificaciones semánticas. Nuestro método logra la personalización de rostros en aproximadamente 20 segundos, 25 veces más rápido que DreamBooth y 125 veces más rápido que Textual Inversion, utilizando tan solo una imagen de referencia, con la misma calidad y diversidad de estilos que DreamBooth. Además, nuestro método produce un modelo que es 10,000 veces más pequeño que un modelo normal de DreamBooth. Página del proyecto: https://hyperdreambooth.github.io
English
Personalization has emerged as a prominent aspect within the field of
generative AI, enabling the synthesis of individuals in diverse contexts and
styles, while retaining high-fidelity to their identities. However, the process
of personalization presents inherent challenges in terms of time and memory
requirements. Fine-tuning each personalized model needs considerable GPU time
investment, and storing a personalized model per subject can be demanding in
terms of storage capacity. To overcome these challenges, we propose
HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of
personalized weights from a single image of a person. By composing these
weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth
can generate a person's face in various contexts and styles, with high subject
details while also preserving the model's crucial knowledge of diverse styles
and semantic modifications. Our method achieves personalization on faces in
roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual
Inversion, using as few as one reference image, with the same quality and style
diversity as DreamBooth. Also our method yields a model that is 10000x smaller
than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io