HyperDreamBooth: HiperRedes para Personalização Rápida de Modelos de Texto para Imagem
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
July 13, 2023
Autores: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
cs.AI
Resumo
A personalização emergiu como um aspecto proeminente no campo da IA generativa, permitindo a síntese de indivíduos em diversos contextos e estilos, mantendo alta fidelidade às suas identidades. No entanto, o processo de personalização apresenta desafios intrínsecos em termos de requisitos de tempo e memória. O ajuste fino de cada modelo personalizado demanda um investimento considerável de tempo em GPU, e o armazenamento de um modelo personalizado por sujeito pode ser exigente em termos de capacidade de armazenamento. Para superar esses desafios, propomos o HyperDreamBooth — uma hiper-rede capaz de gerar eficientemente um pequeno conjunto de pesos personalizados a partir de uma única imagem de uma pessoa. Ao compor esses pesos no modelo de difusão, juntamente com um ajuste fino rápido, o HyperDreamBooth pode gerar o rosto de uma pessoa em vários contextos e estilos, com alto detalhamento do sujeito, ao mesmo tempo em que preserva o conhecimento crucial do modelo sobre diversos estilos e modificações semânticas. Nosso método alcança a personalização de rostos em aproximadamente 20 segundos, 25 vezes mais rápido que o DreamBooth e 125 vezes mais rápido que o Textual Inversion, utilizando apenas uma imagem de referência, com a mesma qualidade e diversidade de estilos do DreamBooth. Além disso, nosso método produz um modelo que é 10.000 vezes menor que um modelo normal do DreamBooth. Página do projeto: https://hyperdreambooth.github.io.
English
Personalization has emerged as a prominent aspect within the field of
generative AI, enabling the synthesis of individuals in diverse contexts and
styles, while retaining high-fidelity to their identities. However, the process
of personalization presents inherent challenges in terms of time and memory
requirements. Fine-tuning each personalized model needs considerable GPU time
investment, and storing a personalized model per subject can be demanding in
terms of storage capacity. To overcome these challenges, we propose
HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of
personalized weights from a single image of a person. By composing these
weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth
can generate a person's face in various contexts and styles, with high subject
details while also preserving the model's crucial knowledge of diverse styles
and semantic modifications. Our method achieves personalization on faces in
roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual
Inversion, using as few as one reference image, with the same quality and style
diversity as DreamBooth. Also our method yields a model that is 10000x smaller
than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io