InstantID: Генерация с сохранением идентичности без предварительного обучения за секунды
InstantID: Zero-shot Identity-Preserving Generation in Seconds
January 15, 2024
Авторы: Qixun Wang, Xu Bai, Haofan Wang, Zekui Qin, Anthony Chen
cs.AI
Аннотация
В области персонализированного синтеза изображений был достигнут значительный прогресс благодаря таким методам, как Textual Inversion, DreamBooth и LoRA. Однако их практическое применение ограничивается высокими требованиями к хранению данных, длительными процессами тонкой настройки и необходимостью использования множества эталонных изображений. С другой стороны, существующие методы, основанные на ID-эмбеддингах, хотя и требуют только одного прямого вывода, сталкиваются с проблемами: они либо нуждаются в обширной тонкой настройке множества параметров модели, либо не совместимы с предварительно обученными моделями сообщества, либо не способны поддерживать высокую точность воспроизведения лица. Для решения этих ограничений мы представляем InstantID — мощное решение на основе диффузионной модели. Наш модуль plug-and-play эффективно справляется с персонализацией изображений в различных стилях, используя всего одно изображение лица, при этом обеспечивая высокую точность. Для достижения этого мы разработали новую IdentityNet, накладывая строгие семантические и слабые пространственные условия, интегрируя изображения лица и ключевых точек с текстовыми подсказками для управления генерацией изображений. InstantID демонстрирует выдающуюся производительность и эффективность, что делает его крайне полезным в реальных приложениях, где сохранение идентичности имеет первостепенное значение. Более того, наша работа легко интегрируется с популярными предварительно обученными моделями текстового синтеза изображений, такими как SD1.5 и SDXL, выступая в качестве адаптируемого плагина. Наши коды и предварительно обученные контрольные точки будут доступны по адресу https://github.com/InstantID/InstantID.
English
There has been significant progress in personalized image synthesis with
methods such as Textual Inversion, DreamBooth, and LoRA. Yet, their real-world
applicability is hindered by high storage demands, lengthy fine-tuning
processes, and the need for multiple reference images. Conversely, existing ID
embedding-based methods, while requiring only a single forward inference, face
challenges: they either necessitate extensive fine-tuning across numerous model
parameters, lack compatibility with community pre-trained models, or fail to
maintain high face fidelity. Addressing these limitations, we introduce
InstantID, a powerful diffusion model-based solution. Our plug-and-play module
adeptly handles image personalization in various styles using just a single
facial image, while ensuring high fidelity. To achieve this, we design a novel
IdentityNet by imposing strong semantic and weak spatial conditions,
integrating facial and landmark images with textual prompts to steer the image
generation. InstantID demonstrates exceptional performance and efficiency,
proving highly beneficial in real-world applications where identity
preservation is paramount. Moreover, our work seamlessly integrates with
popular pre-trained text-to-image diffusion models like SD1.5 and SDXL, serving
as an adaptable plugin. Our codes and pre-trained checkpoints will be available
at https://github.com/InstantID/InstantID.