Naar naadloze interactie: Causale modelvorming op gespreksniveau voor dynamische interactieve 3D-conversatiehoofden
Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
December 17, 2025
Auteurs: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI
Samenvatting
Menselijke gesprekken bestaan uit continue uitwisselingen van spraak en non-verbale signalen, zoals hoofdknikken, blikveranderingen en gezichtsuitdrukkingen, die aandacht en emotie overbrengen. Het modelleren van deze bidirectionele dynamiek in 3D is essentieel voor het creëren van expressieve avatars en interactieve robots. Bestaande frameworks behandelen praten en luisteren echter vaak als onafhankelijke processen of zijn afhankelijk van niet-causale modellering van volledige sequenties, wat de temporele coherentie tussen gespreksbeurten belemmert. Wij presenteren TIMAR (Turn-level Interleaved Masked AutoRegression), een causaal framework voor 3D-conversatiehoofdgeneratie dat dialoog modelleert als vervlochten audiovisuele contexten. Het fuseert multimodale informatie binnen elke gespreksbeurt en past causale aandacht op beurtniveau toe om conversatiegeschiedenis op te bouwen, terwijl een lichtgewicht diffusiehoofd continue 3D-hoofddynamiek voorspelt die zowel coördinatie als expressieve variabiliteit vastlegt. Experimenten op de DualTalk-benchmark tonen aan dat TIMAR de Fréchet-afstand en MSE op de testset met 15-30% vermindert en vergelijkbare verbeteringen behaalt op out-of-distribution data. De broncode zal worden vrijgegeven in de GitHub-repository https://github.com/CoderChen01/towards-seamleass-interaction.
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.