ChatPaper.aiChatPaper

Hacia una Interacción Fluida: Modelado Causal a Nivel de Turno de la Dinámica Conversacional de Cabezas 3D Interactivas

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

December 17, 2025
Autores: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI

Resumen

La conversación humana implica intercambios continuos de habla y señales no verbales, como asentimientos con la cabeza, cambios de mirada y expresiones faciales, que transmiten atención y emoción. Modelar estas dinámicas bidireccionales en 3D es esencial para crear avatares expresivos y robots interactivos. Sin embargo, los marcos existentes suelen tratar el hablar y el escuchar como procesos independientes o se basan en modelos no causales de secuencia completa, lo que dificulta la coherencia temporal entre turnos. Presentamos TIMAR (AutoRegresión Enmascarada Entrelazada a Nivel de Turno), un marco causal para la generación de cabezas conversacionales en 3D que modela el diálogo como contextos audiovisuales entrelazados. Este método fusiona información multimodal dentro de cada turno y aplica atención causal a nivel de turno para acumular el historial conversacional, mientras que un cabezal de difusión ligero predice dinámicas continuas de la cabeza en 3D que capturan tanto la coordinación como la variabilidad expresiva. Los experimentos en el benchmark DualTalk muestran que TIMAR reduce la Distancia de Fréchet y el MSE en un 15-30% en el conjunto de prueba y logra mejoras similares en datos fuera de distribución. El código fuente se publicará en el repositorio de GitHub https://github.com/CoderChen01/towards-seamleass-interaction.
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.
PDF02December 19, 2025