MOSPA: Menschliche Bewegungsgenerierung durch räumliche Audioinformationen
MOSPA: Human Motion Generation Driven by Spatial Audio
July 16, 2025
papers.authors: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI
papers.abstract
Die Fähigkeit virtueller Menschen, dynamisch und realistisch auf verschiedene auditive Reize zu reagieren, bleibt eine zentrale Herausforderung in der Charakteranimation, die die Integration von Wahrnehmungsmodellierung und Bewegungssynthese erfordert. Trotz ihrer Bedeutung wurde diese Aufgabe bisher weitgehend unerforscht. Die meisten bisherigen Arbeiten konzentrierten sich hauptsächlich auf die Abbildung von Modalitäten wie Sprache, Audio und Musik zur Erzeugung menschlicher Bewegungen. Bisher übersehen diese Modelle typischerweise den Einfluss räumlicher Merkmale, die in räumlichen Audiosignalen kodiert sind, auf die menschliche Bewegung. Um diese Lücke zu schließen und eine hochwertige Modellierung menschlicher Bewegungen als Reaktion auf räumliches Audio zu ermöglichen, stellen wir den ersten umfassenden Spatial Audio-Driven Human Motion (SAM)-Datensatz vor, der vielfältige und hochwertige räumliche Audio- und Bewegungsdaten enthält. Für Benchmarking-Zwecke entwickeln wir ein einfaches, aber effektives diffusionsbasiertes generatives Framework für die Erzeugung menschlicher Bewegungen, das durch räumliches Audio angetrieben wird, genannt MOSPA, das die Beziehung zwischen Körperbewegung und räumlichem Audio durch einen effektiven Fusionsmechanismus treu erfasst. Einmal trainiert, kann MOSPA vielfältige, realistische menschliche Bewegungen basierend auf variierenden räumlichen Audioeingaben erzeugen. Wir führen eine gründliche Untersuchung des vorgeschlagenen Datensatzes durch und führen umfangreiche Experimente für Benchmarking durch, bei denen unsere Methode Spitzenleistungen in dieser Aufgabe erzielt. Unser Modell und der Datensatz werden nach der Annahme Open-Source zur Verfügung gestellt. Weitere Details finden Sie in unserem ergänzenden Video.
English
Enabling virtual humans to dynamically and realistically respond to diverse
auditory stimuli remains a key challenge in character animation, demanding the
integration of perceptual modeling and motion synthesis. Despite its
significance, this task remains largely unexplored. Most previous works have
primarily focused on mapping modalities like speech, audio, and music to
generate human motion. As of yet, these models typically overlook the impact of
spatial features encoded in spatial audio signals on human motion. To bridge
this gap and enable high-quality modeling of human movements in response to
spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human
Motion (SAM) dataset, which contains diverse and high-quality spatial audio and
motion data. For benchmarking, we develop a simple yet effective
diffusion-based generative framework for human MOtion generation driven by
SPatial Audio, termed MOSPA, which faithfully captures the relationship between
body motion and spatial audio through an effective fusion mechanism. Once
trained, MOSPA could generate diverse realistic human motions conditioned on
varying spatial audio inputs. We perform a thorough investigation of the
proposed dataset and conduct extensive experiments for benchmarking, where our
method achieves state-of-the-art performance on this task. Our model and
dataset will be open-sourced upon acceptance. Please refer to our supplementary
video for more details.