Генерация согласованных изображений из текста без обучения
Training-Free Consistent Text-to-Image Generation
February 5, 2024
Авторы: Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon
cs.AI
Аннотация
Модели генерации изображений по тексту предлагают новый уровень творческой гибкости, позволяя пользователям направлять процесс создания изображений с помощью естественного языка. Однако использование этих моделей для последовательного изображения одного и того же объекта в различных запросах остается сложной задачей. Существующие подходы дообучают модель, чтобы научить ее новым словам, описывающим конкретные объекты, предоставленные пользователем, или добавляют к модели условия на основе изображений. Эти методы требуют длительной оптимизации для каждого объекта или масштабного предварительного обучения. Более того, они сталкиваются с трудностями в согласовании генерируемых изображений с текстовыми запросами и в изображении нескольких объектов. В данной работе мы представляем ConsiStory, подход, не требующий обучения, который обеспечивает согласованную генерацию объектов за счет совместного использования внутренних активаций предварительно обученной модели. Мы вводим блок совместного внимания, ориентированного на объект, и инъекцию признаков на основе соответствий для повышения согласованности объектов между изображениями. Кроме того, мы разрабатываем стратегии для стимулирования разнообразия композиции при сохранении согласованности объектов. Мы сравниваем ConsiStory с рядом базовых методов и демонстрируем передовые результаты в области согласованности объектов и соответствия тексту, не требуя ни одного шага оптимизации. Наконец, ConsiStory естественным образом расширяется на сценарии с несколькими объектами и даже позволяет осуществлять персонализацию без обучения для распространенных объектов.
English
Text-to-image models offer a new level of creative flexibility by allowing
users to guide the image generation process through natural language. However,
using these models to consistently portray the same subject across diverse
prompts remains challenging. Existing approaches fine-tune the model to teach
it new words that describe specific user-provided subjects or add image
conditioning to the model. These methods require lengthy per-subject
optimization or large-scale pre-training. Moreover, they struggle to align
generated images with text prompts and face difficulties in portraying multiple
subjects. Here, we present ConsiStory, a training-free approach that enables
consistent subject generation by sharing the internal activations of the
pretrained model. We introduce a subject-driven shared attention block and
correspondence-based feature injection to promote subject consistency between
images. Additionally, we develop strategies to encourage layout diversity while
maintaining subject consistency. We compare ConsiStory to a range of baselines,
and demonstrate state-of-the-art performance on subject consistency and text
alignment, without requiring a single optimization step. Finally, ConsiStory
can naturally extend to multi-subject scenarios, and even enable training-free
personalization for common objects.