Генерация согласованных изображений из текста без обучения

Аннотация

Модели генерации изображений по тексту предлагают новый уровень творческой гибкости, позволяя пользователям направлять процесс создания изображений с помощью естественного языка. Однако использование этих моделей для последовательного изображения одного и того же объекта в различных запросах остается сложной задачей. Существующие подходы дообучают модель, чтобы научить ее новым словам, описывающим конкретные объекты, предоставленные пользователем, или добавляют к модели условия на основе изображений. Эти методы требуют длительной оптимизации для каждого объекта или масштабного предварительного обучения. Более того, они сталкиваются с трудностями в согласовании генерируемых изображений с текстовыми запросами и в изображении нескольких объектов. В данной работе мы представляем ConsiStory, подход, не требующий обучения, который обеспечивает согласованную генерацию объектов за счет совместного использования внутренних активаций предварительно обученной модели. Мы вводим блок совместного внимания, ориентированного на объект, и инъекцию признаков на основе соответствий для повышения согласованности объектов между изображениями. Кроме того, мы разрабатываем стратегии для стимулирования разнообразия композиции при сохранении согласованности объектов. Мы сравниваем ConsiStory с рядом базовых методов и демонстрируем передовые результаты в области согласованности объектов и соответствия тексту, не требуя ни одного шага оптимизации. Наконец, ConsiStory естественным образом расширяется на сценарии с несколькими объектами и даже позволяет осуществлять персонализацию без обучения для распространенных объектов.

English

Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects.

Генерация согласованных изображений из текста без обучения

Training-Free Consistent Text-to-Image Generation

Аннотация

Support