HyperDreamBooth: Hiperredes para la personalización rápida de modelos de texto a imagen

Resumen

La personalización ha surgido como un aspecto destacado en el campo de la IA generativa, permitiendo la síntesis de individuos en diversos contextos y estilos, mientras se mantiene una alta fidelidad a sus identidades. Sin embargo, el proceso de personalización presenta desafíos inherentes en términos de tiempo y requisitos de memoria. El ajuste fino de cada modelo personalizado requiere una inversión considerable de tiempo en GPU, y almacenar un modelo personalizado por sujeto puede ser exigente en términos de capacidad de almacenamiento. Para superar estos desafíos, proponemos HyperDreamBooth, una hiperred capaz de generar eficientemente un pequeño conjunto de pesos personalizados a partir de una sola imagen de una persona. Al componer estos pesos en el modelo de difusión, junto con un ajuste fino rápido, HyperDreamBooth puede generar el rostro de una persona en varios contextos y estilos, con detalles precisos del sujeto, mientras preserva el conocimiento crucial del modelo sobre diversos estilos y modificaciones semánticas. Nuestro método logra la personalización de rostros en aproximadamente 20 segundos, 25 veces más rápido que DreamBooth y 125 veces más rápido que Textual Inversion, utilizando tan solo una imagen de referencia, con la misma calidad y diversidad de estilos que DreamBooth. Además, nuestro método produce un modelo que es 10,000 veces más pequeño que un modelo normal de DreamBooth. Página del proyecto: https://hyperdreambooth.github.io

English

Personalization has emerged as a prominent aspect within the field of generative AI, enabling the synthesis of individuals in diverse contexts and styles, while retaining high-fidelity to their identities. However, the process of personalization presents inherent challenges in terms of time and memory requirements. Fine-tuning each personalized model needs considerable GPU time investment, and storing a personalized model per subject can be demanding in terms of storage capacity. To overcome these challenges, we propose HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of personalized weights from a single image of a person. By composing these weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth can generate a person's face in various contexts and styles, with high subject details while also preserving the model's crucial knowledge of diverse styles and semantic modifications. Our method achieves personalization on faces in roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual Inversion, using as few as one reference image, with the same quality and style diversity as DreamBooth. Also our method yields a model that is 10000x smaller than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io

HyperDreamBooth: Hiperredes para la personalización rápida de modelos de texto a imagen

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models

Resumen

Support