Jan 17
ByDi Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani
我們介紹了 X-Dyna,一種新穎的零樣本、基於擴散的流程,用於通過從驅動視頻中提取的面部表情和身體動作來為單張人像圖像添加動畫效果,生成既真實又具有上下文感知的動態效果,涵蓋了主題及周圍環境。在以人體姿勢控制為中心的先前方法基礎上,X-Dyna 解決了導致動態細節丟失的主要缺陷,增強了人類視頻動畫的逼真特性。我們方法的核心是 Dynamics-Adapter,這是一個輕量級模塊,能夠有效地將參考外觀上下文整合到擴散主幹的空間關注中,同時保留運動模塊在合成流暢和複雜動態細節方面的能力。除了身體姿勢控制,我們還將本地控制模塊與我們的模型相連接,以捕獲與身份解耦的面部表情,從而實現準確的表情轉移,增強動畫場景的逼真感。這些組件共同構成了一個統一的框架,能夠從各種人類和場景視頻中學習人類運動和自然場景動態。全面的定性和定量評估表明,X-Dyna 優於最先進的方法,創建出高度逼真和富有表現力的動畫。代碼可在 https://github.com/bytedance/X-Dyna 找到。