アバター強制生成:自然な会話のためのリアルタイム対話型頭部アバター生成
Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation
January 2, 2026
著者: Taekyung Ki, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Sung Ju Hwang
cs.AI
要旨
話し頭生成は、仮想コミュニケーションやコンテンツ制作のために、静止画ポートレートから生き生きとしたアバターを作成する技術である。しかし、現在のモデルは真に双方向的なコミュニケーションの感覚を十分に伝えられておらず、感情的な関与に欠ける一方向的な応答を生成することが多い。我々は、真に双方向的なアバターの実現に向けた二つの主要な課題を特定した:因果的制約下でのリアルタイム動作生成と、追加の教師データなしで表現力豊かで活気のある反応を学習することである。これらの課題に対処するため、我々は拡散強制法を通じてユーザーとアバターのリアルタイム相互作用をモデル化する新しいフレームワーク「Avatar Forcing」を提案する。この設計により、アバターはユーザーの音声や動作を含むマルチモーダル入力を低遅延で処理し、音声、頷き、笑いなどの言語的・非言語的合図に対して即座に反応することが可能となる。さらに、ユーザー条件をドロップして構築した合成負例を活用した直接選好最適化手法を導入し、表現力豊かな相互作用をラベルなしで学習する。実験結果では、本フレームワークが低遅延(約500ms)でのリアルタイム相互作用を実現し、ベースライン比6.8倍の高速化を達成、反応性と表現性に優れたアバター動作を生成し、ベースラインに対して80%以上で選好されることを示した。
English
Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current models do not yet convey the feeling of truly interactive communication, often generating one-way responses that lack emotional engagement. We identify two key challenges toward truly interactive avatars: generating motion in real-time under causal constraints and learning expressive, vibrant reactions without additional labeled data. To address these challenges, we propose Avatar Forcing, a new framework for interactive head avatar generation that models real-time user-avatar interactions through diffusion forcing. This design allows the avatar to process real-time multimodal inputs, including the user's audio and motion, with low latency for instant reactions to both verbal and non-verbal cues such as speech, nods, and laughter. Furthermore, we introduce a direct preference optimization method that leverages synthetic losing samples constructed by dropping user conditions, enabling label-free learning of expressive interaction. Experimental results demonstrate that our framework enables real-time interaction with low latency (approximately 500ms), achieving 6.8X speedup compared to the baseline, and produces reactive and expressive avatar motion, which is preferred over 80% against the baseline.