In Richtung nahtloser Interaktion: Kausale Modellierung der Kopf dynamik auf Turn-Ebene in interaktiven 3D-Konversationen
Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
December 17, 2025
papers.authors: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI
papers.abstract
Menschliche Konversation beinhaltet kontinuierliche Wechsel von Sprache und nonverbalen Signalen wie Kopfnicken, Blickwechseln und Gesichtsausdrücken, die Aufmerksamkeit und Emotionen vermitteln. Die Modellierung dieser bidirektionalen Dynamiken in 3D ist entscheidend für die Erstellung ausdrucksstarker Avatare und interaktiver Roboter. Bisherige Frameworks behandeln Sprechen und Zuhören jedoch oft als unabhängige Prozesse oder verlassen sich auf nicht-kausale Vollsequenz-Modellierung, was die zeitliche Kohärenz über Sprechwechsel hinweg beeinträchtigt. Wir stellen TIMAR (Turn-level Interleaved Masked AutoRegression) vor, einen kausalen Framework für 3D-Konversationskopfgenerierung, der Dialoge als verschachtelte audiovisuelle Kontexte modelliert. Es fusioniert multimodale Informationen innerhalb jedes Sprechwechsels und wendet wechselbezogene kausale Aufmerksamkeit an, um Konversationsverlauf zu akkumulieren, während ein leichtgewichtiger Diffusionskopf kontinuierliche 3D-Kopfdynamiken vorhersagt, die sowohl Koordination als auch ausdrucksstarke Variabilität erfassen. Experimente auf dem DualTalk-Benchmark zeigen, dass TIMAR die Fréchet-Distanz und MSE auf dem Testset um 15-30% reduziert und ähnliche Verbesserungen bei Out-of-Distribution-Daten erzielt. Der Quellcode wird im GitHub-Repository https://github.com/CoderChen01/towards-seamleass-interaction veröffentlicht.
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.