ChatPaper.aiChatPaper

Генерация стилизованных изображений с использованием общего механизма внимания

Style Aligned Image Generation via Shared Attention

December 4, 2023
Авторы: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
cs.AI

Аннотация

Крупномасштабные модели преобразования текста в изображение (Text-to-Image, T2I) быстро завоевали популярность в творческих областях, генерируя визуально привлекательные результаты на основе текстовых запросов. Однако управление этими моделями для обеспечения согласованности стиля остается сложной задачей, поскольку существующие методы требуют тонкой настройки и ручного вмешательства для разделения содержания и стиля. В данной статье мы представляем StyleAligned — новую методику, предназначенную для достижения стилевого выравнивания в серии генерируемых изображений. Используя минимальное «совместное использование внимания» в процессе диффузии, наш метод обеспечивает согласованность стиля между изображениями в рамках моделей T2I. Этот подход позволяет создавать изображения с единым стилем, используя эталонный стиль через простую операцию инверсии. Оценка нашего метода на различных стилях и текстовых запросах демонстрирует высокое качество синтеза и точность, подчеркивая его эффективность в достижении согласованности стиля для разнообразных входных данных.
English
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing' during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method's evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.
PDF111December 15, 2024