ReactMotion: Geração de Movimentos Reativos do Ouvinte a partir da Fala do Locutor

Resumo

Neste artigo, introduzimos uma nova tarefa, a Geração de Movimentos do Ouvinte Reativo a partir do Discurso do Locutor, que visa gerar movimentos corporais naturalísticos do ouvinte que respondam adequadamente ao discurso do locutor. No entanto, modelar tais comportamentos não-verbais do ouvinte permanece pouco explorado e desafiador devido à natureza inerentemente não determinística das reações humanas. Para facilitar essa tarefa, apresentamos o ReactMotionNet, um conjunto de dados em larga escala que emparelha discursos do locutor com múltiplos movimentos candidatos do ouvinte, anotados com diferentes graus de adequação. Este desenho do conjunto de dados captura explicitamente a natureza um-para-muitos do comportamento do ouvinte e fornece supervisão além de um único movimento de referência. Com base neste desenho do conjunto de dados, desenvolvemos protocolos de avaliação orientados por preferência, adaptados para avaliar a adequação reativa, os quais as métricas convencionais de movimento, focadas no alinhamento entrada-movimento, ignoram. Propomos ainda o ReactMotion, um framework generativo unificado que modela conjuntamente texto, áudio, emoção e movimento, e é treinado com objetivos baseados em preferência para incentivar respostas do ouvinte tanto adequadas quanto diversificadas. Experimentos extensivos mostram que o ReactMotion supera baselines de recuperação e pipelines em cascata baseados em LLM, gerando movimentos do ouvinte mais naturais, diversificados e apropriados.

English

In this paper, we introduce a new task, Reactive Listener Motion Generation from Speaker Utterance, which aims to generate naturalistic listener body motions that appropriately respond to a speaker's utterance. However, modeling such nonverbal listener behaviors remains underexplored and challenging due to the inherently non-deterministic nature of human reactions. To facilitate this task, we present ReactMotionNet, a large-scale dataset that pairs speaker utterances with multiple candidate listener motions annotated with varying degrees of appropriateness. This dataset design explicitly captures the one-to-many nature of listener behavior and provides supervision beyond a single ground-truth motion. Building on this dataset design, we develop preference-oriented evaluation protocols tailored to evaluate reactive appropriateness, where conventional motion metrics focusing on input-motion alignment ignore. We further propose ReactMotion, a unified generative framework that jointly models text, audio, emotion, and motion, and is trained with preference-based objectives to encourage both appropriate and diverse listener responses. Extensive experiments show that ReactMotion outperforms retrieval baselines and cascaded LLM-based pipelines, generating more natural, diverse, and appropriate listener motions.

ReactMotion: Geração de Movimentos Reativos do Ouvinte a partir da Fala do Locutor

ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

Resumo

Support