ChatPaper.aiChatPaper

К бесшовному взаимодействию: причинное поуровневое моделирование интерактивной динамики головы в трехмерных диалоговых системах

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

December 17, 2025
Авторы: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI

Аннотация

Человеческое общение включает непрерывный обмен речью и невербальными сигналами, такими как кивки головой, перемещения взгляда и мимика, которые передают внимание и эмоции. Моделирование этих двунаправленных динамик в 3D необходимо для создания выразительных аватаров и интерактивных роботов. Однако существующие подходы часто рассматривают говорение и слушание как независимые процессы или полагаются на некаузальное моделирование полных последовательностей, что нарушает временную согласованность между репликами. Мы представляем TIMAR (Turn-level Interleaved Masked AutoRegression) — каузальную архитектуру для генерации 3D-движений головы в диалоге, которая моделирует беседу как чередующиеся аудиовизуальные контексты. Она объединяет мультимодальную информацию внутри каждой реплики и применяет каузальное внимание на уровне реплик для накопления истории диалога, в то время как облегченный диффузионный модуль прогнозирует непрерывную 3D-динамику головы, учитывающую как координацию, так и выразительную вариативность. Эксперименты на бенчмарке DualTalk показывают, что TIMAR снижает расстояние Фреше и MSE на 15–30% на тестовой выборке и демонстрирует аналогичный прирост на данных вне распределения. Исходный код будет опубликован в репозитории GitHub https://github.com/CoderChen01/towards-seamleass-interaction.
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.
PDF02December 19, 2025