MOSPA : Génération de mouvements humains pilotée par l'audio spatial

papers.abstract

Permettre aux humains virtuels de répondre de manière dynamique et réaliste à divers stimuli auditifs reste un défi majeur dans l'animation de personnages, nécessitant l'intégration de modélisation perceptuelle et de synthèse de mouvement. Malgré son importance, cette tâche reste largement inexplorée. La plupart des travaux précédents se sont principalement concentrés sur la cartographie de modalités telles que la parole, l'audio et la musique pour générer des mouvements humains. Jusqu'à présent, ces modèles négligent généralement l'impact des caractéristiques spatiales encodées dans les signaux audio spatiaux sur le mouvement humain. Pour combler cette lacune et permettre une modélisation de haute qualité des mouvements humains en réponse à l'audio spatial, nous introduisons le premier ensemble de données complet de Mouvement Humain Piloté par Audio Spatial (SAM), qui contient des données audio spatiales et de mouvement diversifiées et de haute qualité. Pour l'évaluation, nous développons un cadre génératif simple mais efficace basé sur la diffusion pour la génération de MOuvement humain piloté par l'audio SPatial, appelé MOSPA, qui capture fidèlement la relation entre le mouvement corporel et l'audio spatial grâce à un mécanisme de fusion efficace. Une fois entraîné, MOSPA peut générer des mouvements humains réalistes et diversifiés en fonction de diverses entrées audio spatiales. Nous menons une investigation approfondie de l'ensemble de données proposé et réalisons des expériences extensives pour l'évaluation, où notre méthode atteint des performances de pointe sur cette tâche. Notre modèle et l'ensemble de données seront open-source après acceptation. Veuillez vous référer à notre vidéo supplémentaire pour plus de détails.

English

Enabling virtual humans to dynamically and realistically respond to diverse auditory stimuli remains a key challenge in character animation, demanding the integration of perceptual modeling and motion synthesis. Despite its significance, this task remains largely unexplored. Most previous works have primarily focused on mapping modalities like speech, audio, and music to generate human motion. As of yet, these models typically overlook the impact of spatial features encoded in spatial audio signals on human motion. To bridge this gap and enable high-quality modeling of human movements in response to spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human Motion (SAM) dataset, which contains diverse and high-quality spatial audio and motion data. For benchmarking, we develop a simple yet effective diffusion-based generative framework for human MOtion generation driven by SPatial Audio, termed MOSPA, which faithfully captures the relationship between body motion and spatial audio through an effective fusion mechanism. Once trained, MOSPA could generate diverse realistic human motions conditioned on varying spatial audio inputs. We perform a thorough investigation of the proposed dataset and conduct extensive experiments for benchmarking, where our method achieves state-of-the-art performance on this task. Our model and dataset will be open-sourced upon acceptance. Please refer to our supplementary video for more details.

MOSPA : Génération de mouvements humains pilotée par l'audio spatial

MOSPA: Human Motion Generation Driven by Spatial Audio

papers.abstract

Support