Verso un'Interazione Senza Soluzione di Continuità: Modellazione Causale a Livello di Turno della Dinamica Conversazionale della Testa in 3D
Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
December 17, 2025
Autori: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI
Abstract
La conversazione umana coinvolge scambi continui di linguaggio verbale e segnali non verbali come cenni del capo, spostamenti dello sguardo ed espressioni facciali che trasmettono attenzione ed emozione. Modellare queste dinamiche bidirezionali in 3D è essenziale per creare avatar espressivi e robot interattivi. Tuttavia, i framework esistenti spesso trattano il parlare e l'ascoltare come processi indipendenti o si basano su modellazioni non causali dell'intera sequenza, compromettendo la coerenza temporale tra i turni. Presentiamo TIMAR (Turn-level Interleaved Masked AutoRegression), un framework causale per la generazione di teste conversazionali 3D che modella il dialogo come contesti audiovisivi intervallati. Esso fonde le informazioni multimodali all'interno di ogni turno e applica un'attenzione causale a livello di turno per accumulare la storia conversazionale, mentre un modulo di diffusione leggero predice le dinamiche 3D continue del capo che catturano sia la coordinazione che la variabilità espressiva. Gli esperimenti sul benchmark DualTalk mostrano che TIMAR riduce la Distanza di Fréchet e l'MSE del 15-30% sul set di test e raggiunge miglioramenti simili su dati fuori distribuzione. Il codice sorgente sarà rilasciato nel repository GitHub https://github.com/CoderChen01/towards-seamleass-interaction.
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.