ChatPaper.aiChatPaper

ARIG: Generazione Autoregressiva di Teste Interattive per Conversazioni in Tempo Reale

ARIG: Autoregressive Interactive Head Generation for Real-time Conversations

July 1, 2025
Autori: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI

Abstract

La comunicazione faccia a faccia, come attività umana comune, motiva la ricerca sulla generazione interattiva di teste. Un agente virtuale può generare risposte motorie con capacità sia di ascolto che di parlato basandosi sui segnali audio o motori dell'altro utente e di se stesso. Tuttavia, i precedenti paradigmi di generazione basati su clip o i metodi di commutazione esplicita tra generatore di ascolto e parlato presentano limitazioni nell'acquisizione di segnali futuri, nella comprensione contestuale del comportamento e nella fluidità della commutazione, rendendo difficile ottenere risultati in tempo reale e realistici. In questo articolo, proponiamo un framework basato su autoregressione (AR) chiamato ARIG per realizzare la generazione in tempo reale con un maggiore realismo interattivo. Per ottenere la generazione in tempo reale, modelliamo la previsione del movimento come un processo AR non quantizzato vettorialmente. A differenza della previsione basata su indici di codebook discreti, rappresentiamo la distribuzione del movimento utilizzando una procedura di diffusione, ottenendo previsioni più accurate nello spazio continuo. Per migliorare il realismo interattivo, enfatizziamo la comprensione del comportamento interattivo (IBU) e la comprensione dettagliata dello stato conversazionale (CSU). Nell'IBU, basandoci su segnali dual-track e dual-modali, sintetizziamo i comportamenti a breve termine attraverso un apprendimento integrato bidirezionale e eseguiamo una comprensione contestuale su lunghi intervalli. Nel CSU, utilizziamo i segnali di attività vocale e le caratteristiche contestuali dell'IBU per comprendere i vari stati (interruzione, feedback, pausa, ecc.) che esistono nelle conversazioni reali. Questi servono come condizioni per la previsione progressiva finale del movimento. Esperimenti estesi hanno verificato l'efficacia del nostro modello.
English
Face-to-face communication, as a common human activity, motivates the research on interactive head generation. A virtual agent can generate motion responses with both listening and speaking capabilities based on the audio or motion signals of the other user and itself. However, previous clip-wise generation paradigm or explicit listener/speaker generator-switching methods have limitations in future signal acquisition, contextual behavioral understanding, and switching smoothness, making it challenging to be real-time and realistic. In this paper, we propose an autoregressive (AR) based frame-wise framework called ARIG to realize the real-time generation with better interaction realism. To achieve real-time generation, we model motion prediction as a non-vector-quantized AR process. Unlike discrete codebook-index prediction, we represent motion distribution using diffusion procedure, achieving more accurate predictions in continuous space. To improve interaction realism, we emphasize interactive behavior understanding (IBU) and detailed conversational state understanding (CSU). In IBU, based on dual-track dual-modal signals, we summarize short-range behaviors through bidirectional-integrated learning and perform contextual understanding over long ranges. In CSU, we use voice activity signals and context features of IBU to understand the various states (interruption, feedback, pause, etc.) that exist in actual conversations. These serve as conditions for the final progressive motion prediction. Extensive experiments have verified the effectiveness of our model.
PDF101July 3, 2025