MOSPA: Generación de Movimiento Humano Impulsada por Audio Espacial
MOSPA: Human Motion Generation Driven by Spatial Audio
July 16, 2025
Autores: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI
Resumen
Permitir que los humanos virtuales respondan de manera dinámica y realista a diversos estímulos auditivos sigue siendo un desafío clave en la animación de personajes, lo que requiere la integración de modelos perceptivos y síntesis de movimiento. A pesar de su importancia, esta tarea ha sido en gran medida poco explorada. La mayoría de los trabajos previos se han centrado principalmente en mapear modalidades como el habla, el audio y la música para generar movimiento humano. Hasta ahora, estos modelos suelen pasar por alto el impacto de las características espaciales codificadas en las señales de audio espacial sobre el movimiento humano. Para cerrar esta brecha y permitir un modelado de alta calidad de los movimientos humanos en respuesta al audio espacial, presentamos el primer conjunto de datos completo de Movimiento Humano Impulsado por Audio Espacial (SAM, por sus siglas en inglés), que contiene datos diversos y de alta calidad de audio espacial y movimiento. Para la evaluación comparativa, desarrollamos un marco generativo basado en difusión, simple pero efectivo, para la generación de movimiento humano impulsado por audio espacial, denominado MOSPA, que captura fielmente la relación entre el movimiento corporal y el audio espacial a través de un mecanismo de fusión eficaz. Una vez entrenado, MOSPA puede generar diversos movimientos humanos realistas condicionados por diferentes entradas de audio espacial. Realizamos una investigación exhaustiva del conjunto de datos propuesto y llevamos a cabo experimentos extensos para la evaluación comparativa, donde nuestro método alcanza un rendimiento de vanguardia en esta tarea. Nuestro modelo y conjunto de datos se publicarán como código abierto tras su aceptación. Consulte nuestro video complementario para obtener más detalles.
English
Enabling virtual humans to dynamically and realistically respond to diverse
auditory stimuli remains a key challenge in character animation, demanding the
integration of perceptual modeling and motion synthesis. Despite its
significance, this task remains largely unexplored. Most previous works have
primarily focused on mapping modalities like speech, audio, and music to
generate human motion. As of yet, these models typically overlook the impact of
spatial features encoded in spatial audio signals on human motion. To bridge
this gap and enable high-quality modeling of human movements in response to
spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human
Motion (SAM) dataset, which contains diverse and high-quality spatial audio and
motion data. For benchmarking, we develop a simple yet effective
diffusion-based generative framework for human MOtion generation driven by
SPatial Audio, termed MOSPA, which faithfully captures the relationship between
body motion and spatial audio through an effective fusion mechanism. Once
trained, MOSPA could generate diverse realistic human motions conditioned on
varying spatial audio inputs. We perform a thorough investigation of the
proposed dataset and conduct extensive experiments for benchmarking, where our
method achieves state-of-the-art performance on this task. Our model and
dataset will be open-sourced upon acceptance. Please refer to our supplementary
video for more details.