ChatPaper.aiChatPaper

シームレスなインタラクションを目指して:インタラクティブな3D会話的頭部動態の因果的ターンレベルモデリング

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

December 17, 2025
著者: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI

要旨

人間の対話は、注意や感情を伝えるうなずき、視線移動、表情などの非言語的合図と発話が継続的に交換される過程である。こうした双方向の力学を3次元でモデル化することは、表現力豊かなアバターや対話型ロボットの構築に不可欠である。しかし、既存のフレームワークでは、発話と傾聴を独立した過程として扱うか、非因果的な全系列モデリングに依存することが多く、ターン間の時間的一貫性が損なわれる傾向がある。本論文では、対話を交互に現れる視聴覚文脈としてモデル化する3次元会話頭部生成のための因果的フレームワーク「TIMAR(Turn-level Interleaved Masked AutoRegression)」を提案する。TIMARは各ターン内でマルチモーダル情報を融合し、ターンレベルの因果的注意機構によって対話履歴を蓄積する。さらに、軽量な拡散ヘッドにより、協調動作と表現的なばらつきの両方を捉えた連続的な3次元頭部動態を予測する。DualTalkベンチマークによる実験では、TIMARがテストセットにおいてFréc
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.
PDF02December 19, 2025