ChatPaper.aiChatPaper

Vers une interaction transparente : Modélisation causale au niveau des tours de parole de la dynamique conversationnelle des têtes 3D interactives

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

December 17, 2025
papers.authors: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI

papers.abstract

La conversation humaine implique des échanges continus de parole et de signes non verbaux tels que les hochements de tête, les changements de regard et les expressions faciales qui transmettent l'attention et l'émotion. Modéliser ces dynamiques bidirectionnelles en 3D est essentiel pour créer des avatars expressifs et des robots interactifs. Cependant, les cadres existants traitent souvent la parole et l'écoute comme des processus indépendants ou reposent sur une modélisation non causale de séquences complètes, ce qui nuit à la cohérence temporelle entre les tours de parole. Nous présentons TIMAR (Régression AutoMasquée Entrelacée au Niveau du Tour), un cadre causal pour la génération de têtes conversationnelles 3D qui modélise le dialogue comme des contextes audiovisuels entrelacés. Il fusionne les informations multimodales au sein de chaque tour et applique une attention causale au niveau du tour pour accumuler l'historique conversationnel, tandis qu'une tête de diffusion légère prédit une dynamique continue de la tête en 3D qui capture à la fois la coordination et la variabilité expressive. Les expériences sur le benchmark DualTalk montrent que TIMAR réduit la Distance de Fréchet et l'erreur quadratique moyenne de 15 à 30 % sur l'ensemble de test, et obtient des gains similaires sur des données hors distribution. Le code source sera publié dans le dépôt GitHub https://github.com/CoderChen01/towards-seamleass-interaction.
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.
PDF02December 19, 2025