Rumo à Interação Contínua: Modelagem Causal em Nível de Turno para Dinâmicas de Cabeça Conversacionais em 3D

Resumo

A conversa humana envolve trocas contínuas de fala e sinais não verbais, como acenos de cabeça, desvios do olhar e expressões faciais que transmitem atenção e emoção. Modelar essas dinâmicas bidirecionais em 3D é essencial para criar avatares expressivos e robôs interativos. No entanto, as estruturas existentes frequentemente tratam a fala e a escuta como processos independentes ou dependem de modelagem não causal de sequências completas, prejudicando a coerência temporal entre os turnos. Apresentamos o TIMAR (AutoRegressão Mascarada Entrelaçada em Nível de Turno), uma estrutura causal para geração de cabeças conversacionais em 3D que modela o diálogo como contextos audiovisuais entrelaçados. Ele funde informações multimodais dentro de cada turno e aplica atenção causal em nível de turno para acumular o histórico conversacional, enquanto uma cabeça de difusão leve prevê dinâmicas contínuas da cabeça em 3D que capturam tanto a coordenação quanto a variabilidade expressiva. Experimentos no benchmark DualTalk mostram que o TIMAR reduz a Distância de Fréchet e o MSE em 15-30% no conjunto de teste e obtém ganhos similares em dados fora da distribuição. O código-fonte será liberado no repositório GitHub https://github.com/CoderChen01/towards-seamleass-interaction.

English

Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.