ARIG: Geração Autoregressiva de Cabeças Interativas para Conversas em Tempo Real
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
July 1, 2025
Autores: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI
Resumo
A comunicação face a face, como uma atividade humana comum, motiva a pesquisa sobre a geração interativa de cabeças. Um agente virtual pode gerar respostas de movimento com capacidades de escuta e fala com base nos sinais de áudio ou movimento do outro usuário e de si mesmo. No entanto, os paradigmas de geração baseados em clipes ou métodos de alternância explícita entre geradores de ouvinte/falante têm limitações na aquisição de sinais futuros, no entendimento comportamental contextual e na suavidade de alternância, tornando desafiador ser em tempo real e realista. Neste artigo, propomos uma estrutura baseada em autoregressão (AR) chamada ARIG para realizar a geração em tempo real com maior realismo de interação. Para alcançar a geração em tempo real, modelamos a previsão de movimento como um processo AR não quantizado vetorialmente. Diferente da previsão de índice de codebook discreto, representamos a distribuição de movimento usando um procedimento de difusão, alcançando previsões mais precisas no espaço contínuo. Para melhorar o realismo de interação, enfatizamos o entendimento comportamental interativo (IBU) e o entendimento detalhado do estado conversacional (CSU). No IBU, com base em sinais duais de dupla modalidade, resumimos comportamentos de curto alcance por meio de aprendizado bidirecional integrado e realizamos o entendimento contextual em longos alcances. No CSU, usamos sinais de atividade vocal e características contextuais do IBU para entender os diversos estados (interrupção, feedback, pausa, etc.) que existem em conversas reais. Estes servem como condições para a previsão progressiva final de movimento. Experimentos extensivos verificaram a eficácia do nosso modelo.
English
Face-to-face communication, as a common human activity, motivates the
research on interactive head generation. A virtual agent can generate motion
responses with both listening and speaking capabilities based on the audio or
motion signals of the other user and itself. However, previous clip-wise
generation paradigm or explicit listener/speaker generator-switching methods
have limitations in future signal acquisition, contextual behavioral
understanding, and switching smoothness, making it challenging to be real-time
and realistic. In this paper, we propose an autoregressive (AR) based
frame-wise framework called ARIG to realize the real-time generation with
better interaction realism. To achieve real-time generation, we model motion
prediction as a non-vector-quantized AR process. Unlike discrete codebook-index
prediction, we represent motion distribution using diffusion procedure,
achieving more accurate predictions in continuous space. To improve interaction
realism, we emphasize interactive behavior understanding (IBU) and detailed
conversational state understanding (CSU). In IBU, based on dual-track
dual-modal signals, we summarize short-range behaviors through
bidirectional-integrated learning and perform contextual understanding over
long ranges. In CSU, we use voice activity signals and context features of IBU
to understand the various states (interruption, feedback, pause, etc.) that
exist in actual conversations. These serve as conditions for the final
progressive motion prediction. Extensive experiments have verified the
effectiveness of our model.