ARIG: Autoregressieve Interactieve Hoofdgeneratie voor Real-time Gesprekken
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
July 1, 2025
Auteurs: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI
Samenvatting
Face-to-face communicatie, als een veelvoorkomende menselijke activiteit, motiveert het onderzoek naar interactieve hoofdgeneratie. Een virtuele agent kan bewegingsreacties genereren met zowel luister- als spreekvaardigheden op basis van de audio- of bewegingssignalen van de andere gebruiker en zichzelf. Eerdere clip-gewijze generatieparadigma's of expliciete luisteraar/spreker generator-switchmethoden hebben echter beperkingen in toekomstige signaalverwerving, contextueel gedragsbegrip en schakelsoepelheid, waardoor het uitdagend is om real-time en realistisch te zijn. In dit artikel stellen we een autoregressief (AR) frame-gewijs raamwerk voor, genaamd ARIG, om real-time generatie met betere interactie-realiteit te realiseren. Om real-time generatie te bereiken, modelleren we bewegingsvoorspelling als een niet-vector-gekwantiseerd AR-proces. In tegenstelling tot discrete codebook-indexvoorspelling, representeren we bewegingsdistributie met behulp van een diffusieprocedure, waardoor nauwkeurigere voorspellingen in continue ruimte worden bereikt. Om interactie-realiteit te verbeteren, benadrukken we interactief gedragsbegrip (IBU) en gedetailleerd gesprekstoestandsbegrip (CSU). In IBU, gebaseerd op dual-track dual-modale signalen, vatten we kortetermijngedrag samen door bidirectioneel-geïntegreerd leren en voeren we contextueel begrip uit over lange afstanden. In CSU gebruiken we stemactiviteitssignalen en contextkenmerken van IBU om de verschillende toestanden (onderbreking, feedback, pauze, etc.) die in werkelijke gesprekken bestaan, te begrijpen. Deze dienen als voorwaarden voor de uiteindelijke progressieve bewegingsvoorspelling. Uitgebreide experimenten hebben de effectiviteit van ons model bevestigd.
English
Face-to-face communication, as a common human activity, motivates the
research on interactive head generation. A virtual agent can generate motion
responses with both listening and speaking capabilities based on the audio or
motion signals of the other user and itself. However, previous clip-wise
generation paradigm or explicit listener/speaker generator-switching methods
have limitations in future signal acquisition, contextual behavioral
understanding, and switching smoothness, making it challenging to be real-time
and realistic. In this paper, we propose an autoregressive (AR) based
frame-wise framework called ARIG to realize the real-time generation with
better interaction realism. To achieve real-time generation, we model motion
prediction as a non-vector-quantized AR process. Unlike discrete codebook-index
prediction, we represent motion distribution using diffusion procedure,
achieving more accurate predictions in continuous space. To improve interaction
realism, we emphasize interactive behavior understanding (IBU) and detailed
conversational state understanding (CSU). In IBU, based on dual-track
dual-modal signals, we summarize short-range behaviors through
bidirectional-integrated learning and perform contextual understanding over
long ranges. In CSU, we use voice activity signals and context features of IBU
to understand the various states (interruption, feedback, pause, etc.) that
exist in actual conversations. These serve as conditions for the final
progressive motion prediction. Extensive experiments have verified the
effectiveness of our model.