ARIG: リアルタイム会話のための自己回帰型インタラクティブヘッド生成
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
July 1, 2025
著者: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI
要旨
対面コミュニケーションは、人間の一般的な活動として、インタラクティブな頭部生成の研究を動機付けています。仮想エージェントは、他のユーザーや自身の音声または動作信号に基づいて、リスニングとスピーキングの両方の能力を備えたモーション応答を生成することができます。しかし、従来のクリップ単位の生成パラダイムや明示的なリスナー/スピーカー生成器切り替え手法は、将来の信号取得、文脈的行動理解、切り替えの滑らかさにおいて制限があり、リアルタイムかつ現実的な生成を困難にしていました。本論文では、より良いインタラクションの現実感を実現するために、オートリグレッシブ(AR)ベースのフレーム単位のフレームワークであるARIGを提案します。リアルタイム生成を実現するために、モーション予測を非ベクトル量子化されたARプロセスとしてモデル化します。離散コードブックインデックス予測とは異なり、拡散プロセスを使用してモーション分布を表現し、連続空間でのより正確な予測を実現します。インタラクションの現実感を向上させるために、インタラクティブ行動理解(IBU)と詳細な会話状態理解(CSU)を重視します。IBUでは、デュアルトラックデュアルモーダル信号に基づいて、双方向統合学習を通じて短期的な行動を要約し、長期的な文脈理解を行います。CSUでは、音声活動信号とIBUの文脈特徴を使用して、実際の会話に存在するさまざまな状態(中断、フィードバック、ポーズなど)を理解します。これらは、最終的な段階的モーション予測の条件として機能します。広範な実験により、我々のモデルの有効性が検証されました。
English
Face-to-face communication, as a common human activity, motivates the
research on interactive head generation. A virtual agent can generate motion
responses with both listening and speaking capabilities based on the audio or
motion signals of the other user and itself. However, previous clip-wise
generation paradigm or explicit listener/speaker generator-switching methods
have limitations in future signal acquisition, contextual behavioral
understanding, and switching smoothness, making it challenging to be real-time
and realistic. In this paper, we propose an autoregressive (AR) based
frame-wise framework called ARIG to realize the real-time generation with
better interaction realism. To achieve real-time generation, we model motion
prediction as a non-vector-quantized AR process. Unlike discrete codebook-index
prediction, we represent motion distribution using diffusion procedure,
achieving more accurate predictions in continuous space. To improve interaction
realism, we emphasize interactive behavior understanding (IBU) and detailed
conversational state understanding (CSU). In IBU, based on dual-track
dual-modal signals, we summarize short-range behaviors through
bidirectional-integrated learning and perform contextual understanding over
long ranges. In CSU, we use voice activity signals and context features of IBU
to understand the various states (interruption, feedback, pause, etc.) that
exist in actual conversations. These serve as conditions for the final
progressive motion prediction. Extensive experiments have verified the
effectiveness of our model.