Loopy: 長期モーション依存を持つ音声駆動型ポートレートアバターの制御Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion
Dependency
拡散ベースのビデオ生成技術の導入により、音声条件付きの人間ビデオ生成は最近、動きの自然さと肖像の詳細の合成の両方で重要な進展を遂げました。音声信号を用いて人間の動きを制御する際の制約が大きいため、従来の手法ではしばしば補助的な空間信号を追加して運動を安定させることが行われてきましたが、これは動きの自然さや自由度を損なう可能性があります。本論文では、エンドツーエンドの音声のみに依存するビデオ拡散モデル「Loopy」を提案します。具体的には、クリップ間およびクリップ内の時間モジュールと音声から潜在変数へのモジュールを設計し、モデルがデータから長期の動き情報を活用して自然な動きパターンを学習し、音声と肖像の動きの相関を向上させることが可能となります。この手法により、既存の手法で推論中に運動を制約するために使用されていた手動で指定された空間運動テンプレートの必要性がなくなります。幅広い実験により、Loopyが最近の音声駆動の肖像拡散モデルを凌駕し、さまざまなシナリオでよりリアルな高品質な結果を提供することが示されました。