ReactMotion: Erzeugung reaktiver Zuhörerbewegungen aus Sprecheräußerungen
ReactMotion: Generating Reactive Listener Motions from Speaker Utterance
March 16, 2026
Autoren: Cheng Luo, Bizhu Wu, Bing Li, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen, Bernard Ghanem
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir eine neue Aufgabe vor, die Reaktive Zuhörerbewegungsgenerierung aus Sprecheräußerungen, deren Ziel es ist, natürliche Körperbewegungen des Zuhörers zu erzeugen, die angemessen auf die Äußerung eines Sprechers reagieren. Die Modellierung solcher nonverbalen Zuhörerreaktionen ist jedoch nach wie vor wenig erforscht und herausfordernd, da menschliche Reaktionen von Natur aus nicht-deterministisch sind. Um diese Aufgabe zu unterstützen, präsentieren wir ReactMotionNet, einen umfangreichen Datensatz, der Sprecheräußerungen mit mehreren Kandidaten für Zuhörerbewegungen paart, die mit unterschiedlichen Angemessenheitsgraden annotiert sind. Dieser Datensatz-Design-Ansatz erfasst explizit die Eins-zu-viele-Natur von Zuhörerverhalten und bietet eine Überwachung, die über eine einzelne Ground-Truth-Bewegung hinausgeht. Aufbauend auf diesem Datensatzdesign entwickeln wir präferenzorientierte Evaluierungsprotokolle, die speziell darauf ausgelegt sind, die reaktive Angemessenheit zu bewerten, wobei konventionelle Bewegungsmetriken, die sich auf die Input-Bewegungs-Übereinstimmung konzentrieren, dies vernachlässigen. Weiterhin schlagen wir ReactMotion vor, ein einheitliches generatives Framework, das Text, Audio, Emotion und Bewegung gemeinsam modelliert und mit präferenzbasierten Zielen trainiert wird, um sowohl angemessene als auch vielfältige Zuhörerreaktionen zu fördern. Umfangreiche Experimente zeigen, dass ReactMotion Retrieval-Baselines und kaskadierte, LLM-basierte Pipelines übertrifft und natürlichere, vielfältigere und angemessenere Zuhörerbewegungen generiert.
English
In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.