FastComposer: Генерация изображений с несколькими объектами без настройки с использованием локализованного внимания
FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention
May 17, 2023
Авторы: Guangxuan Xiao, Tianwei Yin, William T. Freeman, Frédo Durand, Song Han
cs.AI
Аннотация
Диффузионные модели демонстрируют выдающиеся результаты в генерации изображений по текстовым описаниям, особенно в задачах создания персонализированных изображений на основе заданных объектов. Однако существующие методы неэффективны из-за необходимости тонкой настройки под конкретный объект, что требует значительных вычислительных ресурсов и затрудняет оперативное развертывание. Кроме того, существующие методы сталкиваются с трудностями при генерации изображений с несколькими объектами, так как часто смешивают их характеристики. Мы представляем FastComposer, который позволяет эффективно создавать персонализированные изображения с несколькими объектами по текстовым описаниям без необходимости тонкой настройки. FastComposer использует эмбеддинги объектов, извлеченные с помощью кодировщика изображений, чтобы дополнить общее текстовое условие в диффузионных моделях, что позволяет генерировать персонализированные изображения на основе изображений объектов и текстовых инструкций, выполняя только прямое прохождение. Для решения проблемы смешения идентичностей при генерации нескольких объектов FastComposer предлагает использовать контроль локализации кросс-внимания во время обучения, что обеспечивает фокусировку внимания на правильных областях целевых изображений для заданных объектов. Простое использование эмбеддингов объектов приводит к их переобучению. FastComposer предлагает отложенное условие на эмбеддинги объектов на этапе удаления шума, чтобы сохранить как идентичность, так и возможность редактирования в генерации изображений на основе объектов. FastComposer генерирует изображения нескольких ранее невидимых людей в различных стилях, действиях и контекстах. Он обеспечивает ускорение в 300–2500 раз по сравнению с методами, основанными на тонкой настройке, и не требует дополнительного хранилища для новых объектов. FastComposer открывает путь к эффективному, персонализированному и высококачественному созданию изображений с несколькими объектами. Код, модель и набор данных доступны по адресу: https://github.com/mit-han-lab/fastcomposer.
English
Diffusion models excel at text-to-image generation, especially in
subject-driven generation for personalized images. However, existing methods
are inefficient due to the subject-specific fine-tuning, which is
computationally intensive and hampers efficient deployment. Moreover, existing
methods struggle with multi-subject generation as they often blend features
among subjects. We present FastComposer which enables efficient, personalized,
multi-subject text-to-image generation without fine-tuning. FastComposer uses
subject embeddings extracted by an image encoder to augment the generic text
conditioning in diffusion models, enabling personalized image generation based
on subject images and textual instructions with only forward passes. To address
the identity blending problem in the multi-subject generation, FastComposer
proposes cross-attention localization supervision during training, enforcing
the attention of reference subjects localized to the correct regions in the
target images. Naively conditioning on subject embeddings results in subject
overfitting. FastComposer proposes delayed subject conditioning in the
denoising step to maintain both identity and editability in subject-driven
image generation. FastComposer generates images of multiple unseen individuals
with different styles, actions, and contexts. It achieves
300times-2500times speedup compared to fine-tuning-based methods and
requires zero extra storage for new subjects. FastComposer paves the way for
efficient, personalized, and high-quality multi-subject image creation. Code,
model, and dataset are available at
https://github.com/mit-han-lab/fastcomposer.