Magic-Me:身份特定影片定制擴散Magic-Me: Identity-Specific Video Customized Diffusion
在生成模型領域中,為特定身份識別(ID)創建內容已經引起了相當大的興趣。在文本到圖像生成(T2I)領域中,以主題驅動的內容生成已經取得了巨大的進展,使圖像中的ID可控。然而,將其擴展到視頻生成尚未得到很好的探索。在這項工作中,我們提出了一個簡單而有效的主題身份可控視頻生成框架,稱為視頻自定擴散(VCD)。通過幾張圖像定義的特定主題ID,VCD加強了身份信息的提取,並在初始化階段注入了逐幀相關性,以實現穩定的視頻輸出,並在很大程度上保留了身份。為了實現這一目標,我們提出了三個對於高質量ID保留至關重要的新組件:1)通過提示到分割訓練的ID模塊,以解開ID信息和背景噪聲,以便更準確地學習ID標記;2)具有3D高斯噪聲先驗的文本到視頻(T2V)VCD模塊,以獲得更好的幀間一致性;3)視頻到視頻(V2V)臉部VCD和平鋪VCD模塊,用於去模糊臉部並提高視頻的分辨率。 儘管其簡單性,我們進行了大量實驗,驗證VCD能夠生成穩定且高質量的視頻,並具有比選定的強基線更好的ID。此外,由於ID模塊的可轉移性,VCD還可以與公開可用的微調文本到圖像模型很好地配合,進一步提高了其可用性。代碼可在https://github.com/Zhen-Dong/Magic-Me 找到。