StableIdentity: Встраивание любого объекта в любое место с первого взгляда
StableIdentity: Inserting Anybody into Anywhere at First Sight
January 29, 2024
Авторы: Qinghe Wang, Xu Jia, Xiaomin Li, Taiqing Li, Liqian Ma, Yunzhi Zhuge, Huchuan Lu
cs.AI
Аннотация
Последние достижения в области крупных предобученных моделей для генерации изображений из текста продемонстрировали беспрецедентные возможности для создания высококачественных изображений с акцентом на человека. Однако персонализация лица с сохранением идентичности остается сложной задачей. Существующие методы не могут обеспечить стабильное сохранение идентичности и гибкую редактируемость, даже при наличии нескольких изображений каждого объекта во время обучения. В данной работе мы предлагаем метод StableIdentity, который позволяет выполнять переконтекстуализацию с сохранением идентичности, используя всего одно изображение лица. В частности, мы используем кодировщик лица с априорной информацией об идентичности для кодирования входного изображения, а затем помещаем представление лица в пространство с априорной информацией о редактируемости, которая строится на основе имен знаменитостей. Благодаря включению априорной информации об идентичности и редактируемости, изученная идентичность может быть внедрена в различные контексты. Кроме того, мы разработали маскированную двухфазную диффузионную функцию потерь для улучшения восприятия входного изображения на уровне пикселей и сохранения разнообразия генерации. Многочисленные эксперименты показывают, что наш метод превосходит предыдущие подходы к персонализации. Кроме того, изученная идентичность может гибко сочетаться с готовыми модулями, такими как ControlNet. Примечательно, что, насколько нам известно, мы впервые напрямую внедряем идентичность, изученную из одного изображения, в генерацию видео и 3D без дополнительного обучения. Мы считаем, что предложенный метод StableIdentity является важным шагом к унификации моделей персонализированной генерации изображений, видео и 3D.
English
Recent advances in large pretrained text-to-image models have shown
unprecedented capabilities for high-quality human-centric generation, however,
customizing face identity is still an intractable problem. Existing methods
cannot ensure stable identity preservation and flexible editability, even with
several images for each subject during training. In this work, we propose
StableIdentity, which allows identity-consistent recontextualization with just
one face image. More specifically, we employ a face encoder with an identity
prior to encode the input face, and then land the face representation into a
space with an editable prior, which is constructed from celeb names. By
incorporating identity prior and editability prior, the learned identity can be
injected anywhere with various contexts. In addition, we design a masked
two-phase diffusion loss to boost the pixel-level perception of the input face
and maintain the diversity of generation. Extensive experiments demonstrate our
method outperforms previous customization methods. In addition, the learned
identity can be flexibly combined with the off-the-shelf modules such as
ControlNet. Notably, to the best knowledge, we are the first to directly inject
the identity learned from a single image into video/3D generation without
finetuning. We believe that the proposed StableIdentity is an important step to
unify image, video, and 3D customized generation models.