ReactMotion: Generación de Movimientos Reactivos del Oyente a Partir del Discurso del Hablante

Resumen

En este artículo, presentamos una nueva tarea: la Generación Reactiva de Movimientos del Oyente a partir de la Expresión del Hablante, que tiene como objetivo generar movimientos corporales naturalistas del oyente que respondan adecuadamente a la expresión de un hablante. Sin embargo, modelar tales comportamientos no verbales del oyente sigue siendo un área poco explorada y desafiante debido a la naturaleza inherentemente no determinista de las reacciones humanas. Para facilitar esta tarea, presentamos ReactMotionNet, un conjunto de datos a gran escala que empareja expresiones del hablante con múltiples movimientos candidatos del oyente, anotados con distintos grados de adecuación. Este diseño del conjunto de datos capta explícitamente la naturaleza uno-a-muchos del comportamiento del oyente y proporciona una supervisión que va más allá de un único movimiento de referencia. Basándonos en este diseño, desarrollamos protocolos de evaluación orientados a la preferencia, adaptados para evaluar la adecuación reactiva, aspectos que las métricas de movimiento convencionales centradas en la alineación entrada-movimiento ignoran. Además, proponemos ReactMotion, un marco generativo unificado que modela conjuntamente texto, audio, emoción y movimiento, y se entrena con objetivos basados en preferencias para fomentar respuestas del oyente tanto apropiadas como diversas. Experimentos exhaustivos demuestran que ReactMotion supera a los baselines de recuperación y a las pipelines en cascada basadas en LLM, generando movimientos del oyente más naturales, diversos y apropiados.

English

In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.

ReactMotion: Generación de Movimientos Reactivos del Oyente a Partir del Discurso del Hablante

ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

Resumen

Support