ChatPaper.aiChatPaper

Loopy: 長期モーション依存を持つ音声駆動型ポートレートアバターの制御

Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

September 4, 2024
著者: Jianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
cs.AI

要旨

拡散ベースのビデオ生成技術の導入により、音声条件付きの人間ビデオ生成は最近、動きの自然さと肖像の詳細の合成の両方で重要な進展を遂げました。音声信号を用いて人間の動きを制御する際の制約が大きいため、従来の手法ではしばしば補助的な空間信号を追加して運動を安定させることが行われてきましたが、これは動きの自然さや自由度を損なう可能性があります。本論文では、エンドツーエンドの音声のみに依存するビデオ拡散モデル「Loopy」を提案します。具体的には、クリップ間およびクリップ内の時間モジュールと音声から潜在変数へのモジュールを設計し、モデルがデータから長期の動き情報を活用して自然な動きパターンを学習し、音声と肖像の動きの相関を向上させることが可能となります。この手法により、既存の手法で推論中に運動を制約するために使用されていた手動で指定された空間運動テンプレートの必要性がなくなります。幅広い実験により、Loopyが最近の音声駆動の肖像拡散モデルを凌駕し、さまざまなシナリオでよりリアルな高品質な結果を提供することが示されました。
English
With the introduction of diffusion-based video generation techniques, audio-conditioned human video generation has recently achieved significant breakthroughs in both the naturalness of motion and the synthesis of portrait details. Due to the limited control of audio signals in driving human motion, existing methods often add auxiliary spatial signals to stabilize movements, which may compromise the naturalness and freedom of motion. In this paper, we propose an end-to-end audio-only conditioned video diffusion model named Loopy. Specifically, we designed an inter- and intra-clip temporal module and an audio-to-latents module, enabling the model to leverage long-term motion information from the data to learn natural motion patterns and improving audio-portrait movement correlation. This method removes the need for manually specified spatial motion templates used in existing methods to constrain motion during inference. Extensive experiments show that Loopy outperforms recent audio-driven portrait diffusion models, delivering more lifelike and high-quality results across various scenarios.

Summary

AI-Generated Summary

PDF9813November 16, 2024