ARIG: Авторегрессивная интерактивная генерация головы для общения в реальном времени
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations
July 1, 2025
Авторы: Ying Guo, Xi Liu, Cheng Zhen, Pengfei Yan, Xiaoming Wei
cs.AI
Аннотация
Личное общение, как распространённая форма человеческой деятельности, стимулирует исследования в области генерации интерактивных движений головы. Виртуальный агент способен генерировать двигательные реакции, обладая как способностью слушать, так и говорить, на основе аудио- или двигательных сигналов другого пользователя и своих собственных. Однако предыдущие подходы, основанные на пофрагментной генерации или явном переключении между генераторами слушателя и говорящего, имеют ограничения в получении будущих сигналов, понимании контекстного поведения и плавности переключения, что затрудняет их использование в реальном времени и снижает реалистичность. В данной статье мы предлагаем основанную на авторегрессии (AR) пофреймовую структуру под названием ARIG, которая позволяет реализовать генерацию в реальном времени с повышенной реалистичностью взаимодействия. Для достижения генерации в реальном времени мы моделируем прогнозирование движений как невекторно-квантованный авторегрессионный процесс. В отличие от прогнозирования по индексам дискретного кодового пространства, мы представляем распределение движений с использованием процедуры диффузии, что позволяет достичь более точных прогнозов в непрерывном пространстве. Для повышения реалистичности взаимодействия мы акцентируем внимание на понимании интерактивного поведения (IBU) и детальном понимании состояния диалога (CSU). В рамках IBU, основываясь на двухканальных двухмодальных сигналах, мы суммируем краткосрочные поведенческие паттерны с помощью двунаправленного интегрированного обучения и осуществляем контекстное понимание на длинных временных интервалах. В CSU мы используем сигналы активности голоса и контекстные признаки IBU для понимания различных состояний (прерывание, обратная связь, пауза и т.д.), которые присутствуют в реальных диалогах. Эти данные служат условиями для финального прогрессивного прогнозирования движений. Многочисленные эксперименты подтвердили эффективность нашей модели.
English
Face-to-face communication, as a common human activity, motivates the
research on interactive head generation. A virtual agent can generate motion
responses with both listening and speaking capabilities based on the audio or
motion signals of the other user and itself. However, previous clip-wise
generation paradigm or explicit listener/speaker generator-switching methods
have limitations in future signal acquisition, contextual behavioral
understanding, and switching smoothness, making it challenging to be real-time
and realistic. In this paper, we propose an autoregressive (AR) based
frame-wise framework called ARIG to realize the real-time generation with
better interaction realism. To achieve real-time generation, we model motion
prediction as a non-vector-quantized AR process. Unlike discrete codebook-index
prediction, we represent motion distribution using diffusion procedure,
achieving more accurate predictions in continuous space. To improve interaction
realism, we emphasize interactive behavior understanding (IBU) and detailed
conversational state understanding (CSU). In IBU, based on dual-track
dual-modal signals, we summarize short-range behaviors through
bidirectional-integrated learning and perform contextual understanding over
long ranges. In CSU, we use voice activity signals and context features of IBU
to understand the various states (interruption, feedback, pause, etc.) that
exist in actual conversations. These serve as conditions for the final
progressive motion prediction. Extensive experiments have verified the
effectiveness of our model.