ARIG: Autoregressive interaktive Kopfgenerierung für Echtzeit-Konversationen
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
July 1, 2025
Autoren: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI
Zusammenfassung
Die face-to-face-Kommunikation, als eine alltägliche menschliche Aktivität, motiviert die Forschung zur interaktiven Kopfgenerierung. Ein virtueller Agent kann Bewegungsantworten mit sowohl Hör- als auch Sprechfähigkeiten basierend auf den Audio- oder Bewegungssignalen des anderen Benutzers und seiner selbst generieren. Bisherige Ansätze, wie die clip-basierte Generierung oder explizite Methoden zum Wechsel zwischen Zuhörer- und Sprechergeneratoren, weisen jedoch Einschränkungen in der zukünftigen Signalakquisition, dem kontextuellen Verständnis von Verhalten und der Wechselglätte auf, was die Echtzeitfähigkeit und Realismus erschwert. In diesem Artikel schlagen wir ein autoregressives (AR) frame-basiertes Framework namens ARIG vor, um die Echtzeitgenerierung mit besserer Interaktionsrealität zu ermöglichen. Um die Echtzeitgenerierung zu erreichen, modellieren wir die Bewegungsvorhersage als einen nicht-vektorquantisierten AR-Prozess. Im Gegensatz zur diskreten Codebuch-Index-Vorhersage repräsentieren wir die Bewegungsverteilung mithilfe eines Diffusionsverfahrens, wodurch genauere Vorhersagen im kontinuierlichen Raum erreicht werden. Um den Interaktionsrealismus zu verbessern, legen wir besonderen Wert auf das Verständnis interaktiven Verhaltens (Interactive Behavior Understanding, IBU) und das detaillierte Verständnis des Gesprächszustands (Conversational State Understanding, CSU). Im IBU fassen wir kurzfristige Verhaltensweisen durch bidirektional integriertes Lernen basierend auf dual-track dual-modalen Signalen zusammen und führen ein kontextuelles Verständnis über lange Zeiträume durch. Im CSU nutzen wir Sprachaktivitätssignale und Kontextmerkmale des IBU, um die verschiedenen Zustände (Unterbrechung, Feedback, Pause usw.), die in tatsächlichen Gesprächen auftreten, zu verstehen. Diese dienen als Bedingungen für die finale progressive Bewegungsvorhersage. Umfangreiche Experimente haben die Wirksamkeit unseres Modells bestätigt.
English
Face-to-face communication, as a common human activity, motivates the
research on interactive head generation. A virtual agent can generate motion
responses with both listening and speaking capabilities based on the audio or
motion signals of the other user and itself. However, previous clip-wise
generation paradigm or explicit listener/speaker generator-switching methods
have limitations in future signal acquisition, contextual behavioral
understanding, and switching smoothness, making it challenging to be real-time
and realistic. In this paper, we propose an autoregressive (AR) based
frame-wise framework called ARIG to realize the real-time generation with
better interaction realism. To achieve real-time generation, we model motion
prediction as a non-vector-quantized AR process. Unlike discrete codebook-index
prediction, we represent motion distribution using diffusion procedure,
achieving more accurate predictions in continuous space. To improve interaction
realism, we emphasize interactive behavior understanding (IBU) and detailed
conversational state understanding (CSU). In IBU, based on dual-track
dual-modal signals, we summarize short-range behaviors through
bidirectional-integrated learning and perform contextual understanding over
long ranges. In CSU, we use voice activity signals and context features of IBU
to understand the various states (interruption, feedback, pause, etc.) that
exist in actual conversations. These serve as conditions for the final
progressive motion prediction. Extensive experiments have verified the
effectiveness of our model.