ReactMotion: Generazione di Movimenti Reattivi dell'Ascoltatore dall'Enunciato del Parlante

Abstract

In questo articolo introduciamo un nuovo compito, la Generazione di Movimenti Reattivi dell'Ascoltatore dall'Enunciato del Parlante, che mira a generare movimenti corporei naturalistici dell'ascoltatore che rispondano appropriatamente all'enunciato di un parlante. Tuttavia, modellare tali comportamenti non verbali dell'ascoltatore rimane poco esplorato e impegnativo a causa della natura intrinsecamente non deterministica delle reazioni umane. Per facilitare questo compito, presentiamo ReactMotionNet, un dataset su larga scala che accoppia gli enunciati del parlante con molteplici movimenti candidati dell'ascoltatore, annotati con diversi gradi di appropriatezza. Questo design del dataset cattura esplicitamente la natura uno-a-molti del comportamento dell'ascoltatore e fornisce una supervisione che va oltre un unico movimento di ground truth. Basandoci su questo design del dataset, sviluppiamo protocolli di valutazione orientati alla preferenza, concepiti per valutare l'appropriatezza reattiva, che le metriche convenzionali sui movimenti, focalizzate sull'allineamento input-movimento, ignorano. Proponiamo inoltre ReactMotion, un framework generativo unificato che modella congiuntamente testo, audio, emozione e movimento, ed è addestrato con obiettivi basati sulle preferenze per incoraggiare risposte dell'ascoltatore sia appropriate che diversificate. Esperimenti estensivi dimostrano che ReactMotion supera le baseline di retrieval e le pipeline basate su LLM in cascata, generando movimenti dell'ascoltatore più naturali, diversificati e appropriati.

English

In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.

ReactMotion: Generazione di Movimenti Reattivi dell'Ascoltatore dall'Enunciato del Parlante

ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

Abstract

Support