ReactMotion: Генерация реактивных движений слушателя на основе высказываний говорящего

Аннотация

В данной статье представлена новая задача — генерация реактивных движений слушателя на основе высказываний говорящего, направленная на создание естественных движений тела слушателя, адекватно реагирующих на речь собеседника. Однако моделирование таких невербальных реакций слушателя остается малоизученным и сложным из-за принципиально недетерминированного характера человеческих реакций. Для решения этой задачи мы представляем ReactMotionNet — масштабный набор данных, сопоставляющий высказывания говорящего с несколькими вариантами движений слушателя, аннотированных по степени адекватности. Такая структура набора данных явно отражает отношение «один ко многим» в поведении слушателя и обеспечивает обучение с учетом множества возможных реакций, а не единственного эталонного движения. На основе этого подхода мы разрабатываем ориентированные на предпочтения протоколы оценки, адаптированные для измерения адекватности реакций, которые игнорируются традиционными метриками движений, фокусирующимися на соответствии входным данным. Далее мы предлагаем ReactMotion — унифицированную генеративную архитектуру, совместно моделирующую текст, аудио, эмоции и движения, которая обучается с использованием целевых функций на основе предпочтений для стимулирования как адекватных, так и разнообразных реакций слушателя. Многочисленные эксперименты демонстрируют, что ReactMotion превосходит retrieval-базлайны и каскадные конвейеры на основе больших языковых моделей, генерируя более естественные, разнообразные и уместные движения слушателя.

English

In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.

ReactMotion: Генерация реактивных движений слушателя на основе высказываний говорящего

ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

Аннотация

Support