每日精選AI研究論文及翻譯
本文提出了一個可控的文本到視頻(T2V)擴散模型,名為Video-ControlNet,該模型根據一系列控制信號(如邊緣或深度圖)生成視頻。Video-ControlNet基於一個預先訓練的條件文本到圖像(T2I)擴散模型,通過引入空間-時間自注意機制和可訓練的時間層進行有效的跨幀建模。提出了一種首幀條件策略,以促進模型以自回歸方式生成從圖像領域轉換的視頻以及任意長度的視頻。此外,Video-ControlNet採用了一種新型基於殘差的噪聲初始化策略,從輸入視頻引入運動先驗,生成更連貫的視頻。通過所提出的架構和策略,Video-ControlNet能夠實現資源高效的收斂,生成具有精細控制的優質和一致的視頻。大量實驗證明了其在各種視頻生成任務中的成功,如視頻編輯和視頻風格轉換,以一致性和質量方面優於先前方法。項目頁面:https://controlavideo.github.io/
最近的文本到圖像生成模型展示了生成與文本對齊的高保真度圖像的令人印象深刻能力。然而,生成用戶輸入圖像提供的新概念的圖像仍然是一項具有挑戰性的任務。為了解決這個問題,研究人員一直在探索各種方法來定制預訓練的文本到圖像生成模型。目前,大多數現有的用於定制預訓練文本到圖像生成模型的方法涉及使用正則化技術來防止過度擬合。雖然正則化將緩解定制的挑戰並且在文本引導方面帶來成功的內容創作,但它可能會限制模型的能力,導致詳細信息的丟失和性能下降。在這項工作中,我們提出了一個新的框架,用於定制文本到圖像生成,而無需使用正則化。具體來說,我們提出的框架包括一個編碼器網絡和一種新的採樣方法,可以應對過度擬合問題而無需使用正則化。通過我們提出的框架,我們能夠在單個GPU上的半分鐘內定制一個大規模的文本到圖像生成模型,只需用戶提供一張圖像。我們在實驗中展示,我們提出的框架優於現有方法,並保留了更多的細節信息。