ChatPaper.aiChatPaper

MOSPA: Generación de Movimiento Humano Impulsada por Audio Espacial

MOSPA: Human Motion Generation Driven by Spatial Audio

July 16, 2025
Autores: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI

Resumen

Permitir que los humanos virtuales respondan de manera dinámica y realista a diversos estímulos auditivos sigue siendo un desafío clave en la animación de personajes, lo que requiere la integración de modelos perceptivos y síntesis de movimiento. A pesar de su importancia, esta tarea ha sido en gran medida poco explorada. La mayoría de los trabajos previos se han centrado principalmente en mapear modalidades como el habla, el audio y la música para generar movimiento humano. Hasta ahora, estos modelos suelen pasar por alto el impacto de las características espaciales codificadas en las señales de audio espacial sobre el movimiento humano. Para cerrar esta brecha y permitir un modelado de alta calidad de los movimientos humanos en respuesta al audio espacial, presentamos el primer conjunto de datos completo de Movimiento Humano Impulsado por Audio Espacial (SAM, por sus siglas en inglés), que contiene datos diversos y de alta calidad de audio espacial y movimiento. Para la evaluación comparativa, desarrollamos un marco generativo basado en difusión, simple pero efectivo, para la generación de movimiento humano impulsado por audio espacial, denominado MOSPA, que captura fielmente la relación entre el movimiento corporal y el audio espacial a través de un mecanismo de fusión eficaz. Una vez entrenado, MOSPA puede generar diversos movimientos humanos realistas condicionados por diferentes entradas de audio espacial. Realizamos una investigación exhaustiva del conjunto de datos propuesto y llevamos a cabo experimentos extensos para la evaluación comparativa, donde nuestro método alcanza un rendimiento de vanguardia en esta tarea. Nuestro modelo y conjunto de datos se publicarán como código abierto tras su aceptación. Consulte nuestro video complementario para obtener más detalles.
English
Enabling virtual humans to dynamically and realistically respond to diverse auditory stimuli remains a key challenge in character animation, demanding the integration of perceptual modeling and motion synthesis. Despite its significance, this task remains largely unexplored. Most previous works have primarily focused on mapping modalities like speech, audio, and music to generate human motion. As of yet, these models typically overlook the impact of spatial features encoded in spatial audio signals on human motion. To bridge this gap and enable high-quality modeling of human movements in response to spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human Motion (SAM) dataset, which contains diverse and high-quality spatial audio and motion data. For benchmarking, we develop a simple yet effective diffusion-based generative framework for human MOtion generation driven by SPatial Audio, termed MOSPA, which faithfully captures the relationship between body motion and spatial audio through an effective fusion mechanism. Once trained, MOSPA could generate diverse realistic human motions conditioned on varying spatial audio inputs. We perform a thorough investigation of the proposed dataset and conduct extensive experiments for benchmarking, where our method achieves state-of-the-art performance on this task. Our model and dataset will be open-sourced upon acceptance. Please refer to our supplementary video for more details.
PDF141July 17, 2025