원활한 상호작용을 향하여: 대화형 3D 헤드 다이내믹스의 인과적 턴 레벨 모델링
Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
December 17, 2025
저자: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang
cs.AI
초록
인간 대화는 주의와 감정을 전달하는 말과 고개 끄덕임, 시선 이동, 표정 같은 비언어적 단서의 지속적인 교류로 이루어집니다. 이러한 양방향 역학을 3차원으로 모델링하는 것은 표현력이 풍부한 아바타와 상호작용 로봇을 구축하는 데 필수적입니다. 그러나 기존 프레임워크는 말하기와 듣기를 독립적인 과정으로 취급하거나 인과관계를 고려하지 않은 전체 시퀀스 모델링에 의존하는 경우가 많아, 발화 차례 간의 시간적 일관성을 저해합니다. 본 논문에서는 대화를 교차된 오디오-시각적 컨텍스트로 모델링하는 3차원 대화 헤드 생성용 인과적 프레임워크인 TIMAR(턴 단위 교차 마스크드 자동회귀)을 제안합니다. TIMAR는 각 발화 차례 내에서 다중 모드 정보를 융합하고, 턴 단위 인과적 주의 메커니즘을 적용하여 대화 기록을 누적하며, 경량 디퓨전 헤드가 조화와 표현적 변동성을 모두 포착하는 연속적인 3차원 헤드 동역학을 예측합니다. DualTalk 벤치마크 실험 결과, TIMAR는 테스트 세트에서 프레셰 거리와 평균 제곱 오차를 15-30% 감소시켰으며, 분포 외 데이터에서도 유사한 성능 향상을 달성했습니다. 소스 코드는 GitHub 저장소(https://github.com/CoderChen01/towards-seamleass-interaction)에서 공개될 예정입니다.
English
Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.