オーディオビジュアル制御型ビデオ拡散モデル：マスク選択的状態空間モデリングによる自然な話し頭生成

要旨

トーキングヘッド合成は、仮想アバターや人間とコンピュータのインタラクションにおいて重要な技術です。しかし、既存の手法の多くは、単一の主要なモダリティからの制御に限定されており、実用性が制限されています。この問題を解決するため、我々はACTalkerを提案します。これは、トーキングヘッド動画生成において、複数の信号制御と単一信号制御の両方をサポートするエンドツーエンドのビデオ拡散フレームワークです。複数制御のため、並列マンバ構造を設計し、各ブランチが個別の駆動信号を利用して特定の顔領域を制御します。すべてのブランチにゲートメカニズムを適用し、動画生成に対する柔軟な制御を実現します。制御された動画が時間的および空間的に自然に調和することを保証するため、マンバ構造を採用し、各ブランチで駆動信号が特徴トークンを両次元にわたって操作できるようにします。さらに、マスクドロップ戦略を導入し、各駆動信号がマンバ構造内で対応する顔領域を独立して制御できるようにし、制御の衝突を防ぎます。実験結果は、我々の手法が多様な信号によって駆動される自然な顔動画を生成し、マンバ層が複数の駆動モダリティを衝突なくシームレスに統合することを示しています。

English

Talking head synthesis is vital for virtual avatars and human-computer interaction. However, most existing methods are typically limited to accepting control from a single primary modality, restricting their practical utility. To this end, we introduce ACTalker, an end-to-end video diffusion framework that supports both multi-signals control and single-signal control for talking head video generation. For multiple control, we design a parallel mamba structure with multiple branches, each utilizing a separate driving signal to control specific facial regions. A gate mechanism is applied across all branches, providing flexible control over video generation. To ensure natural coordination of the controlled video both temporally and spatially, we employ the mamba structure, which enables driving signals to manipulate feature tokens across both dimensions in each branch. Additionally, we introduce a mask-drop strategy that allows each driving signal to independently control its corresponding facial region within the mamba structure, preventing control conflicts. Experimental results demonstrate that our method produces natural-looking facial videos driven by diverse signals and that the mamba layer seamlessly integrates multiple driving modalities without conflict.