MOSPA : Génération de mouvements humains pilotée par l'audio spatial
MOSPA: Human Motion Generation Driven by Spatial Audio
July 16, 2025
papers.authors: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI
papers.abstract
Permettre aux humains virtuels de répondre de manière dynamique et réaliste à divers stimuli auditifs reste un défi majeur dans l'animation de personnages, nécessitant l'intégration de modélisation perceptuelle et de synthèse de mouvement. Malgré son importance, cette tâche reste largement inexplorée. La plupart des travaux précédents se sont principalement concentrés sur la cartographie de modalités telles que la parole, l'audio et la musique pour générer des mouvements humains. Jusqu'à présent, ces modèles négligent généralement l'impact des caractéristiques spatiales encodées dans les signaux audio spatiaux sur le mouvement humain. Pour combler cette lacune et permettre une modélisation de haute qualité des mouvements humains en réponse à l'audio spatial, nous introduisons le premier ensemble de données complet de Mouvement Humain Piloté par Audio Spatial (SAM), qui contient des données audio spatiales et de mouvement diversifiées et de haute qualité. Pour l'évaluation, nous développons un cadre génératif simple mais efficace basé sur la diffusion pour la génération de MOuvement humain piloté par l'audio SPatial, appelé MOSPA, qui capture fidèlement la relation entre le mouvement corporel et l'audio spatial grâce à un mécanisme de fusion efficace. Une fois entraîné, MOSPA peut générer des mouvements humains réalistes et diversifiés en fonction de diverses entrées audio spatiales. Nous menons une investigation approfondie de l'ensemble de données proposé et réalisons des expériences extensives pour l'évaluation, où notre méthode atteint des performances de pointe sur cette tâche. Notre modèle et l'ensemble de données seront open-source après acceptation. Veuillez vous référer à notre vidéo supplémentaire pour plus de détails.
English
Enabling virtual humans to dynamically and realistically respond to diverse
auditory stimuli remains a key challenge in character animation, demanding the
integration of perceptual modeling and motion synthesis. Despite its
significance, this task remains largely unexplored. Most previous works have
primarily focused on mapping modalities like speech, audio, and music to
generate human motion. As of yet, these models typically overlook the impact of
spatial features encoded in spatial audio signals on human motion. To bridge
this gap and enable high-quality modeling of human movements in response to
spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human
Motion (SAM) dataset, which contains diverse and high-quality spatial audio and
motion data. For benchmarking, we develop a simple yet effective
diffusion-based generative framework for human MOtion generation driven by
SPatial Audio, termed MOSPA, which faithfully captures the relationship between
body motion and spatial audio through an effective fusion mechanism. Once
trained, MOSPA could generate diverse realistic human motions conditioned on
varying spatial audio inputs. We perform a thorough investigation of the
proposed dataset and conduct extensive experiments for benchmarking, where our
method achieves state-of-the-art performance on this task. Our model and
dataset will be open-sourced upon acceptance. Please refer to our supplementary
video for more details.