ARIG : Génération Autoregressive Interactive de Têtes pour les Conversations en Temps Réel
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
July 1, 2025
Auteurs: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI
Résumé
La communication en face à face, en tant qu'activité humaine courante, motive la recherche sur la génération interactive de têtes virtuelles. Un agent virtuel peut générer des réponses motrices avec des capacités d'écoute et de parole basées sur les signaux audio ou de mouvement de l'autre utilisateur et de lui-même. Cependant, les paradigmes de génération par clips ou les méthodes explicites de commutation entre générateurs d'écouteur et de locuteur présentent des limites en matière d'acquisition de signaux futurs, de compréhension contextuelle des comportements et de fluidité de commutation, rendant difficile la réalisation en temps réel et réaliste. Dans cet article, nous proposons un cadre basé sur un processus autorégressif (AR) appelé ARIG pour réaliser une génération en temps réel avec un meilleur réalisme d'interaction. Pour atteindre la génération en temps réel, nous modélisons la prédiction de mouvement comme un processus AR non quantifié vectoriellement. Contrairement à la prédiction d'indices de codebook discrets, nous représentons la distribution de mouvement à l'aide d'une procédure de diffusion, permettant des prédictions plus précises dans un espace continu. Pour améliorer le réalisme de l'interaction, nous mettons l'accent sur la compréhension des comportements interactifs (IBU) et la compréhension détaillée des états conversationnels (CSU). Dans l'IBU, basé sur des signaux bi-modaux à double piste, nous résumons les comportements à court terme grâce à un apprentissage bidirectionnel intégré et effectuons une compréhension contextuelle sur de longues périodes. Dans la CSU, nous utilisons les signaux d'activité vocale et les caractéristiques contextuelles de l'IBU pour comprendre les différents états (interruption, feedback, pause, etc.) présents dans les conversations réelles. Ces éléments servent de conditions pour la prédiction progressive finale des mouvements. Des expériences approfondies ont vérifié l'efficacité de notre modèle.
English
Face-to-face communication, as a common human activity, motivates the
research on interactive head generation. A virtual agent can generate motion
responses with both listening and speaking capabilities based on the audio or
motion signals of the other user and itself. However, previous clip-wise
generation paradigm or explicit listener/speaker generator-switching methods
have limitations in future signal acquisition, contextual behavioral
understanding, and switching smoothness, making it challenging to be real-time
and realistic. In this paper, we propose an autoregressive (AR) based
frame-wise framework called ARIG to realize the real-time generation with
better interaction realism. To achieve real-time generation, we model motion
prediction as a non-vector-quantized AR process. Unlike discrete codebook-index
prediction, we represent motion distribution using diffusion procedure,
achieving more accurate predictions in continuous space. To improve interaction
realism, we emphasize interactive behavior understanding (IBU) and detailed
conversational state understanding (CSU). In IBU, based on dual-track
dual-modal signals, we summarize short-range behaviors through
bidirectional-integrated learning and perform contextual understanding over
long ranges. In CSU, we use voice activity signals and context features of IBU
to understand the various states (interruption, feedback, pause, etc.) that
exist in actual conversations. These serve as conditions for the final
progressive motion prediction. Extensive experiments have verified the
effectiveness of our model.