Генерация стилизованных изображений с использованием общего механизма внимания
Style Aligned Image Generation via Shared Attention
December 4, 2023
Авторы: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
cs.AI
Аннотация
Крупномасштабные модели преобразования текста в изображение (Text-to-Image, T2I) быстро завоевали популярность в творческих областях, генерируя визуально привлекательные результаты на основе текстовых запросов. Однако управление этими моделями для обеспечения согласованности стиля остается сложной задачей, поскольку существующие методы требуют тонкой настройки и ручного вмешательства для разделения содержания и стиля. В данной статье мы представляем StyleAligned — новую методику, предназначенную для достижения стилевого выравнивания в серии генерируемых изображений. Используя минимальное «совместное использование внимания» в процессе диффузии, наш метод обеспечивает согласованность стиля между изображениями в рамках моделей T2I. Этот подход позволяет создавать изображения с единым стилем, используя эталонный стиль через простую операцию инверсии. Оценка нашего метода на различных стилях и текстовых запросах демонстрирует высокое качество синтеза и точность, подчеркивая его эффективность в достижении согласованности стиля для разнообразных входных данных.
English
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across
creative fields, generating visually compelling outputs from textual prompts.
However, controlling these models to ensure consistent style remains
challenging, with existing methods necessitating fine-tuning and manual
intervention to disentangle content and style. In this paper, we introduce
StyleAligned, a novel technique designed to establish style alignment among a
series of generated images. By employing minimal `attention sharing' during the
diffusion process, our method maintains style consistency across images within
T2I models. This approach allows for the creation of style-consistent images
using a reference style through a straightforward inversion operation. Our
method's evaluation across diverse styles and text prompts demonstrates
high-quality synthesis and fidelity, underscoring its efficacy in achieving
consistent style across various inputs.