ReactMotion : Génération de mouvements d'écoute réactifs à partir des énoncés d'un locuteur
ReactMotion: Generating Reactive Listener Motions from Speaker Utterance
March 16, 2026
Auteurs: Cheng Luo, Bizhu Wu, Bing Li, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen, Bernard Ghanem
cs.AI
Résumé
Dans cet article, nous introduisons une nouvelle tâche, la Génération Réactive de Mouvements de l'Auditeur à partir des Énoncés de l'Orateur, qui vise à générer des mouvements corporels d'auditeur naturels répondant de manière appropriée aux énoncés d'un orateur. Cependant, la modélisation de ces comportements non verbaux de l'auditeur reste peu explorée et difficile en raison de la nature intrinsèquement non déterministe des réactions humaines. Pour faciliter cette tâche, nous présentons ReactMotionNet, un jeu de données à grande échelle qui associe des énoncés d'orateur à plusieurs mouvements candidats de l'auditeur, annotés selon différents degrés de pertinence. Cette conception du jeu de données capture explicitement la nature un-à-plusieurs du comportement de l'auditeur et fournit une supervision au-delà d'un seul mouvement de référence. S'appuyant sur cette conception, nous développons des protocoles d'évaluation axés sur les préférences, conçus pour évaluer la pertinence réactive, ce que les métriques conventionnelles de mouvement se concentrant sur l'alignement entrée-mouvement ignorent. Nous proposons en outre ReactMotion, un cadre génératif unifié qui modélise conjointement le texte, l'audio, l'émotion et le mouvement, et qui est entraîné avec des objectifs basés sur les préférences pour favoriser des réponses de l'auditeur à la fois appropriées et diversifiées. Des expériences approfondies montrent que ReactMotion surpasse les bases de référence par recherche et les pipelines en cascade basés sur des LLM, générant des mouvements d'auditeur plus naturels, diversifiés et appropriés.
English
In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.