ByMoo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
ByYucheng Han, Rui Wang, Chi Zhang, Juntao Hu, Pei Cheng, Bin Fu, Hanwang Zhang
14
3
最近在影像生成方面取得的進展使得能夠從文字條件中創建高質量的圖像。然而,當面對多模態條件時,例如將文字與參考外觀結合,現有方法往往難以有效平衡多個條件,通常會偏好某一模態而忽略其他模態。為了應對這一挑戰,我們引入了 EMMA,這是一個新穎的圖像生成模型,接受多模態提示,建立在最先進的文本到圖像(T2I)擴散模型 ELLA 的基礎上。EMMA 通過創新的多模態特徵連接器設計,無縫地將額外的模態與文字一起整合,通過特殊的注意機制有效地整合文本和補充模態信息來引導圖像生成。通過凍結原始 T2I 擴散模型中的所有參數,僅調整一些額外層,我們發現一個有趣的結果,即預先訓練的 T2I 擴散模型可以秘密接受多模態提示。這一有趣的特性有助於輕鬆適應不同的現有框架,使 EMMA 成為一個靈活且有效的工具,用於生成個性化和上下文感知的圖像甚至視頻。此外,我們介紹了一種策略,將學習的 EMMA 模塊組裝起來,以同時條件於多個模態的圖像,消除了需要使用混合多模態提示進行額外訓練的需求。大量實驗證明了 EMMA 在生成圖像時保持高保真度和細節的有效性,展示了其作為先進多模態條件圖像生成任務的強大解決方案的潛力。