ChatPaper.aiChatPaper

EMMA: 당신의 텍스트-이미지 확산 모델은 비밀리에 다중 모달 프롬프트를 수용할 수 있습니다

EMMA: Your Text-to-Image Diffusion Model Can Secretly Accept Multi-Modal Prompts

June 13, 2024
저자: Yucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
cs.AI

초록

최근 이미지 생성 분야의 발전으로 텍스트 조건에서 고품질 이미지를 생성할 수 있게 되었습니다. 그러나 텍스트와 참조 외관과 같은 다중 모달 조건에 직면했을 때, 기존 방법들은 여러 조건을 효과적으로 균형 있게 처리하는 데 어려움을 겪으며 일반적으로 한 모달리티를 다른 모달리티보다 선호하는 경향을 보입니다. 이러한 문제를 해결하기 위해, 우리는 최신 텍스트-이미지(T2I) 확산 모델인 ELLA를 기반으로 다중 모달 프롬프트를 수용하는 새로운 이미지 생성 모델인 EMMA를 소개합니다. EMMA는 혁신적인 다중 모달 특징 연결기(Multi-modal Feature Connector) 설계를 통해 텍스트와 함께 추가 모달리티를 원활하게 통합하여 특별한 주의 메커니즘을 사용하여 텍스트와 보조 모달 정보를 효과적으로 통합합니다. 원래의 T2I 확산 모델의 모든 매개변수를 고정하고 일부 추가 레이어만 조정함으로써, 우리는 사전 훈련된 T2I 확산 모델이 비밀리에 다중 모달 프롬프트를 수용할 수 있다는 흥미로운 발견을 했습니다. 이 흥미로운 특성은 다양한 기존 프레임워크에 쉽게 적응할 수 있게 하여 EMMA를 개인화되고 상황 인식적인 이미지와 심지어 비디오를 생성하는 데 유연하고 효과적인 도구로 만듭니다. 또한, 우리는 학습된 EMMA 모듈을 조립하여 여러 모달리티를 동시에 조건으로 하는 이미지를 생성하는 전략을 소개하며, 혼합된 다중 모달 프롬프트에 대한 추가 훈련이 필요 없게 합니다. 광범위한 실험을 통해 EMMA가 생성된 이미지에서 높은 충실도와 세부 사항을 유지하는 데 효과적임을 입증하며, 고급 다중 모달 조건 이미지 생성 작업을 위한 강력한 솔루션으로서의 잠재력을 보여줍니다.
English
Recent advancements in image generation have enabled the creation of high-quality images from text conditions. However, when facing multi-modal conditions, such as text combined with reference appearances, existing methods struggle to balance multiple conditions effectively, typically showing a preference for one modality over others. To address this challenge, we introduce EMMA, a novel image generation model accepting multi-modal prompts built upon the state-of-the-art text-to-image (T2I) diffusion model, ELLA. EMMA seamlessly incorporates additional modalities alongside text to guide image generation through an innovative Multi-modal Feature Connector design, which effectively integrates textual and supplementary modal information using a special attention mechanism. By freezing all parameters in the original T2I diffusion model and only adjusting some additional layers, we reveal an interesting finding that the pre-trained T2I diffusion model can secretly accept multi-modal prompts. This interesting property facilitates easy adaptation to different existing frameworks, making EMMA a flexible and effective tool for producing personalized and context-aware images and even videos. Additionally, we introduce a strategy to assemble learned EMMA modules to produce images conditioned on multiple modalities simultaneously, eliminating the need for additional training with mixed multi-modal prompts. Extensive experiments demonstrate the effectiveness of EMMA in maintaining high fidelity and detail in generated images, showcasing its potential as a robust solution for advanced multi-modal conditional image generation tasks.

Summary

AI-Generated Summary

PDF143December 6, 2024