Встраивание любого человека в диффузионные модели с использованием Celeb Basis
Inserting Anybody in Diffusion Models via Celeb Basis
June 1, 2023
Авторы: Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, Huicheng Zheng
cs.AI
Аннотация
Существует высокая потребность в настройке предобученных крупных моделей для генерации изображений из текста, таких как Stable Diffusion, для создания инновационных концепций, например, изображений самих пользователей. Однако новые концепции, добавленные с помощью предыдущих методов настройки, часто демонстрируют более слабую способность к комбинированию по сравнению с оригинальными, даже при наличии нескольких изображений во время обучения. Мы предлагаем новый метод персонализации, который позволяет бесшовно интегрировать уникальную личность в предобученную диффузионную модель, используя всего одну фотографию лица и всего 1024 обучаемых параметра менее чем за 3 минуты. Это позволяет нам легко генерировать потрясающие изображения этого человека в любых позах и положениях, взаимодействующего с кем угодно и выполняющего любые действия, описанные в текстовых запросах. Для достижения этого мы сначала анализируем и создаем четко определенную базу знаменитостей из пространства эмбеддингов предобученного крупного текстового энкодера. Затем, используя одну фотографию лица в качестве целевой идентичности, мы генерируем её собственный эмбеддинг, оптимизируя вес этой базы и фиксируя все остальные параметры. Благодаря предложенной базе знаменитостей, новая идентичность в нашей настроенной модели демонстрирует лучшую способность к комбинированию концепций по сравнению с предыдущими методами персонализации. Кроме того, наша модель также может одновременно изучать несколько новых идентичностей и взаимодействовать между собой, что недоступно для предыдущих моделей настройки. Код будет опубликован.
English
Exquisite demand exists for customizing the pretrained large text-to-image
model, e.g., Stable Diffusion, to generate innovative concepts, such
as the users themselves. However, the newly-added concept from previous
customization methods often shows weaker combination abilities than the
original ones even given several images during training. We thus propose a new
personalization method that allows for the seamless integration of a unique
individual into the pre-trained diffusion model using just one facial
photograph and only 1024 learnable parameters under 3
minutes. So as we can effortlessly generate stunning images of this person in
any pose or position, interacting with anyone and doing anything imaginable
from text prompts. To achieve this, we first analyze and build a well-defined
celeb basis from the embedding space of the pre-trained large text encoder.
Then, given one facial photo as the target identity, we generate its own
embedding by optimizing the weight of this basis and locking all other
parameters. Empowered by the proposed celeb basis, the new identity in our
customized model showcases a better concept combination ability than previous
personalization methods. Besides, our model can also learn several new
identities at once and interact with each other where the previous
customization model fails to. The code will be released.