ChatPaper.aiChatPaper

HyperDreamBooth: Гиперсети для быстрой персонализации моделей генерации изображений по тексту

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models

July 13, 2023
Авторы: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
cs.AI

Аннотация

Персонализация стала важным аспектом в области генеративного ИИ, позволяя синтезировать изображения людей в различных контекстах и стилях с сохранением высокой точности их идентичности. Однако процесс персонализации сопряжен с существенными трудностями, связанными с временными и ресурсными затратами. Тонкая настройка каждой персонализированной модели требует значительных временных затрат на GPU, а хранение отдельной модели для каждого субъекта может быть ресурсоемким с точки зрения объема памяти. Для преодоления этих проблем мы предлагаем HyperDreamBooth — гиперсеть, способную эффективно генерировать небольшой набор персонализированных весов на основе одного изображения человека. Путем интеграции этих весов в диффузионную модель в сочетании с быстрой тонкой настройкой, HyperDreamBooth может генерировать лицо человека в различных контекстах и стилях с высокой детализацией, сохраняя при этом ключевые знания модели о разнообразных стилях и семантических модификациях. Наш метод обеспечивает персонализацию лиц примерно за 20 секунд, что в 25 раз быстрее, чем DreamBooth, и в 125 раз быстрее, чем Textual Inversion, используя всего одно эталонное изображение, с тем же качеством и разнообразием стилей, что и DreamBooth. Кроме того, наша модель в 10000 раз меньше, чем стандартная модель DreamBooth. Страница проекта: https://hyperdreambooth.github.io
English
Personalization has emerged as a prominent aspect within the field of generative AI, enabling the synthesis of individuals in diverse contexts and styles, while retaining high-fidelity to their identities. However, the process of personalization presents inherent challenges in terms of time and memory requirements. Fine-tuning each personalized model needs considerable GPU time investment, and storing a personalized model per subject can be demanding in terms of storage capacity. To overcome these challenges, we propose HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of personalized weights from a single image of a person. By composing these weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth can generate a person's face in various contexts and styles, with high subject details while also preserving the model's crucial knowledge of diverse styles and semantic modifications. Our method achieves personalization on faces in roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual Inversion, using as few as one reference image, with the same quality and style diversity as DreamBooth. Also our method yields a model that is 10000x smaller than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io
PDF516December 15, 2024