HyperDreamBooth: 텍스트-이미지 모델의 빠른 개인화를 위한 하이퍼네트워크
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
July 13, 2023
저자: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
cs.AI
초록
개인화는 생성형 AI 분야에서 두드러진 측면으로 부상하며, 다양한 맥락과 스타일에서 개인을 합성하면서도 그들의 정체성을 높은 충실도로 유지할 수 있게 해주었습니다. 그러나 개인화 과정은 시간과 메모리 요구 사항 측면에서 본질적인 도전 과제를 안고 있습니다. 각 개인화된 모델을 미세 조정하려면 상당한 GPU 시간 투자가 필요하며, 주체별로 개인화된 모델을 저장하는 것은 저장 용량 측면에서 부담이 될 수 있습니다. 이러한 도전 과제를 극복하기 위해, 우리는 HyperDreamBooth를 제안합니다. 이는 단일 인물 이미지로부터 소규모의 개인화된 가중치를 효율적으로 생성할 수 있는 하이퍼네트워크입니다. 이러한 가중치를 확산 모델에 결합하고 빠른 미세 조정을 통해, HyperDreamBooth는 다양한 맥락과 스타일에서 개인의 얼굴을 생성할 수 있으며, 높은 주체 세부 사항을 유지하면서도 다양한 스타일과 의미론적 수정에 대한 모델의 중요한 지식을 보존합니다. 우리의 방법은 약 20초 만에 얼굴 개인화를 달성하며, 이는 DreamBooth보다 25배 빠르고 Textual Inversion보다 125배 빠른 속도입니다. 단 하나의 참조 이미지를 사용하면서도 DreamBooth와 동일한 품질과 스타일 다양성을 유지합니다. 또한 우리의 방법은 일반적인 DreamBooth 모델보다 10000배 작은 모델을 생성합니다. 프로젝트 페이지: https://hyperdreambooth.github.io
English
Personalization has emerged as a prominent aspect within the field of
generative AI, enabling the synthesis of individuals in diverse contexts and
styles, while retaining high-fidelity to their identities. However, the process
of personalization presents inherent challenges in terms of time and memory
requirements. Fine-tuning each personalized model needs considerable GPU time
investment, and storing a personalized model per subject can be demanding in
terms of storage capacity. To overcome these challenges, we propose
HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of
personalized weights from a single image of a person. By composing these
weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth
can generate a person's face in various contexts and styles, with high subject
details while also preserving the model's crucial knowledge of diverse styles
and semantic modifications. Our method achieves personalization on faces in
roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual
Inversion, using as few as one reference image, with the same quality and style
diversity as DreamBooth. Also our method yields a model that is 10000x smaller
than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io