EMMA: Ваша модель диффузии текста в изображение может скрыто принимать мультимодальные подсказки.
EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts
June 13, 2024
Авторы: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI
Аннотация
Недавние достижения в области генерации изображений позволили создавать высококачественные изображения на основе текстовых условий. Однако при работе с мультимодальными условиями, такими как текст в сочетании с внешними появлениями, существующие методы испытывают затруднения в эффективном балансировании нескольких условий, обычно проявляя предпочтение к одной модальности перед другими. Для решения этой проблемы мы представляем EMMA, новую модель генерации изображений, принимающую мультимодальные подсказки на основе передовой модели диффузии текста в изображение (T2I), ELLA. EMMA плавно интегрирует дополнительные модальности наряду с текстом для направления генерации изображений с помощью инновационного дизайна Мульти-модального Коннектора Особенностей, который эффективно интегрирует текстовую и дополнительную модальную информацию с использованием специального механизма внимания. Замораживая все параметры в исходной модели диффузии T2I и только корректируя некоторые дополнительные слои, мы обнаружили интересное открытие, что предварительно обученная модель диффузии T2I может скрыто принимать мультимодальные подсказки. Это интересное свойство облегчает простое адаптирование к различным существующим структурам, делая EMMA гибким и эффективным инструментом для создания персонализированных и контекстно-осознанных изображений и даже видео. Кроме того, мы представляем стратегию сборки изученных модулей EMMA для создания изображений, условных одновременно на несколько модальностей, что устраняет необходимость дополнительного обучения смешанным мультимодальным подсказкам. Обширные эксперименты демонстрируют эффективность EMMA в сохранении высокой достоверности и детализации сгенерированных изображений, показывая ее потенциал как надежное решение для продвинутых мультимодальных условных задач генерации изображений.
English
Recent advancements in image generation have enabled the creation of
high-quality images from text conditions. However, when facing multi-modal
conditions, such as text combined with reference appearances, existing methods
struggle to balance multiple conditions effectively, typically showing a
preference for one modality over others. To address this challenge, we
introduce EMMA, a novel image generation model accepting multi-modal prompts
built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA
seamlessly incorporates additional modalities alongside text to guide image
generation through an innovative Multi-modal Feature Connector design, which
effectively integrates textual and supplementary modal information using a
special attention mechanism. By freezing all parameters in the original T2I
diffusion model and only adjusting some additional layers, we reveal an
interesting finding that the pre-trained T2I diffusion model can secretly
accept multi-modal prompts. This interesting property facilitates easy
adaptation to different existing frameworks, making EMMA a flexible and
effective tool for producing personalized and context-aware images and even
videos. Additionally, we introduce a strategy to assemble learned EMMA modules
to produce images conditioned on multiple modalities simultaneously,
eliminating the need for additional training with mixed multi-modal prompts.
Extensive experiments demonstrate the effectiveness of EMMA in maintaining high
fidelity and detail in generated images, showcasing its potential as a robust
solution for advanced multi-modal conditional image generation tasks.