ChatPaper.aiChatPaper

ARIG: リアルタイム会話のための自己回帰型インタラクティブヘッド生成

ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

July 1, 2025
著者: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI

要旨

対面コミュニケーションは、人間の一般的な活動として、インタラクティブな頭部生成の研究を動機付けています。仮想エージェントは、他のユーザーや自身の音声または動作信号に基づいて、リスニングとスピーキングの両方の能力を備えたモーション応答を生成することができます。しかし、従来のクリップ単位の生成パラダイムや明示的なリスナー/スピーカー生成器切り替え手法は、将来の信号取得、文脈的行動理解、切り替えの滑らかさにおいて制限があり、リアルタイムかつ現実的な生成を困難にしていました。本論文では、より良いインタラクションの現実感を実現するために、オートリグレッシブ(AR)ベースのフレーム単位のフレームワークであるARIGを提案します。リアルタイム生成を実現するために、モーション予測を非ベクトル量子化されたARプロセスとしてモデル化します。離散コードブックインデックス予測とは異なり、拡散プロセスを使用してモーション分布を表現し、連続空間でのより正確な予測を実現します。インタラクションの現実感を向上させるために、インタラクティブ行動理解(IBU)と詳細な会話状態理解(CSU)を重視します。IBUでは、デュアルトラックデュアルモーダル信号に基づいて、双方向統合学習を通じて短期的な行動を要約し、長期的な文脈理解を行います。CSUでは、音声活動信号とIBUの文脈特徴を使用して、実際の会話に存在するさまざまな状態(中断、フィードバック、ポーズなど)を理解します。これらは、最終的な段階的モーション予測の条件として機能します。広範な実験により、我々のモデルの有効性が検証されました。
English
Face-to-face communication, as a common human activity, motivates the research on interactive head generation. A virtual agent can generate motion responses with both listening and speaking capabilities based on the audio or motion signals of the other user and itself. However, previous clip-wise generation paradigm or explicit listener/speaker generator-switching methods have limitations in future signal acquisition, contextual behavioral understanding, and switching smoothness, making it challenging to be real-time and realistic. In this paper, we propose an autoregressive (AR) based frame-wise framework called ARIG to realize the real-time generation with better interaction realism. To achieve real-time generation, we model motion prediction as a non-vector-quantized AR process. Unlike discrete codebook-index prediction, we represent motion distribution using diffusion procedure, achieving more accurate predictions in continuous space. To improve interaction realism, we emphasize interactive behavior understanding (IBU) and detailed conversational state understanding (CSU). In IBU, based on dual-track dual-modal signals, we summarize short-range behaviors through bidirectional-integrated learning and perform contextual understanding over long ranges. In CSU, we use voice activity signals and context features of IBU to understand the various states (interruption, feedback, pause, etc.) that exist in actual conversations. These serve as conditions for the final progressive motion prediction. Extensive experiments have verified the effectiveness of our model.
PDF21July 3, 2025