ChatPaper.aiChatPaper

ARIG: Generación Autoregresiva de Cabezas Interactivas para Conversaciones en Tiempo Real

ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

July 1, 2025
Autores: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI

Resumen

La comunicación cara a cara, como una actividad humana común, motiva la investigación sobre la generación interactiva de cabezas. Un agente virtual puede generar respuestas de movimiento con capacidades tanto de escucha como de habla basadas en las señales de audio o movimiento del otro usuario y de sí mismo. Sin embargo, los paradigmas de generación por segmentos o los métodos de conmutación explícita entre generadores de escucha/habla tienen limitaciones en la adquisición de señales futuras, la comprensión contextual del comportamiento y la suavidad de la conmutación, lo que dificulta que sean en tiempo real y realistas. En este artículo, proponemos un marco de trabajo basado en autoregresión (AR) llamado ARIG para realizar la generación en tiempo real con un mejor realismo de interacción. Para lograr la generación en tiempo real, modelamos la predicción de movimiento como un proceso AR no cuantizado vectorialmente. A diferencia de la predicción de índices de códigos discretos, representamos la distribución de movimiento utilizando un procedimiento de difusión, logrando predicciones más precisas en un espacio continuo. Para mejorar el realismo de la interacción, enfatizamos la comprensión del comportamiento interactivo (IBU) y la comprensión detallada del estado conversacional (CSU). En IBU, basándonos en señales duales de doble modalidad, resumimos comportamientos de corto alcance mediante aprendizaje integrado bidireccional y realizamos una comprensión contextual a largo alcance. En CSU, utilizamos señales de actividad vocal y características contextuales de IBU para comprender los diversos estados (interrupción, retroalimentación, pausa, etc.) que existen en conversaciones reales. Estos sirven como condiciones para la predicción progresiva final del movimiento. Experimentos extensos han verificado la efectividad de nuestro modelo.
English
Face-to-face communication, as a common human activity, motivates the research on interactive head generation. A virtual agent can generate motion responses with both listening and speaking capabilities based on the audio or motion signals of the other user and itself. However, previous clip-wise generation paradigm or explicit listener/speaker generator-switching methods have limitations in future signal acquisition, contextual behavioral understanding, and switching smoothness, making it challenging to be real-time and realistic. In this paper, we propose an autoregressive (AR) based frame-wise framework called ARIG to realize the real-time generation with better interaction realism. To achieve real-time generation, we model motion prediction as a non-vector-quantized AR process. Unlike discrete codebook-index prediction, we represent motion distribution using diffusion procedure, achieving more accurate predictions in continuous space. To improve interaction realism, we emphasize interactive behavior understanding (IBU) and detailed conversational state understanding (CSU). In IBU, based on dual-track dual-modal signals, we summarize short-range behaviors through bidirectional-integrated learning and perform contextual understanding over long ranges. In CSU, we use voice activity signals and context features of IBU to understand the various states (interruption, feedback, pause, etc.) that exist in actual conversations. These serve as conditions for the final progressive motion prediction. Extensive experiments have verified the effectiveness of our model.
PDF31July 3, 2025