ChatPaper.aiChatPaper

MOSPA: Menselijke Bewegingsgeneratie Aangedreven door Ruimtelijke Audio

MOSPA: Human Motion Generation Driven by Spatial Audio

July 16, 2025
Auteurs: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI

Samenvatting

Het mogelijk maken voor virtuele mensen om dynamisch en realistisch te reageren op diverse auditieve stimuli blijft een belangrijke uitdaging in karakteranimatie, wat de integratie van perceptuele modellering en bewegingssynthese vereist. Ondanks het belang ervan, is deze taak grotendeels onontgonnen gebleven. De meeste eerdere werken hebben zich voornamelijk gericht op het in kaart brengen van modaliteiten zoals spraak, audio en muziek om menselijke bewegingen te genereren. Tot nu toe negeren deze modellen doorgaans de impact van ruimtelijke kenmerken die zijn gecodeerd in ruimtelijke audiosignalen op menselijke bewegingen. Om deze kloof te overbruggen en hoogwaardige modellering van menselijke bewegingen als reactie op ruimtelijke audio mogelijk te maken, introduceren we de eerste uitgebreide Spatial Audio-Driven Human Motion (SAM) dataset, die diverse en hoogwaardige ruimtelijke audio- en bewegingsgegevens bevat. Voor benchmarking ontwikkelen we een eenvoudig maar effectief op diffusie gebaseerd generatief framework voor het genereren van menselijke bewegingen aangedreven door ruimtelijke audio, genaamd MOSPA, dat de relatie tussen lichaamsbeweging en ruimtelijke audio nauwkeurig vastlegt door middel van een effectief fusiemechanisme. Eenmaal getraind, kan MOSPA diverse realistische menselijke bewegingen genereren, afhankelijk van variërende ruimtelijke audio-inputs. We voeren een grondig onderzoek uit naar de voorgestelde dataset en voeren uitgebreide experimenten uit voor benchmarking, waarbij onze methode state-of-the-art prestaties behaalt voor deze taak. Ons model en de dataset zullen worden openbaar gemaakt na acceptatie. Raadpleeg onze aanvullende video voor meer details.
English
Enabling virtual humans to dynamically and realistically respond to diverse auditory stimuli remains a key challenge in character animation, demanding the integration of perceptual modeling and motion synthesis. Despite its significance, this task remains largely unexplored. Most previous works have primarily focused on mapping modalities like speech, audio, and music to generate human motion. As of yet, these models typically overlook the impact of spatial features encoded in spatial audio signals on human motion. To bridge this gap and enable high-quality modeling of human movements in response to spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human Motion (SAM) dataset, which contains diverse and high-quality spatial audio and motion data. For benchmarking, we develop a simple yet effective diffusion-based generative framework for human MOtion generation driven by SPatial Audio, termed MOSPA, which faithfully captures the relationship between body motion and spatial audio through an effective fusion mechanism. Once trained, MOSPA could generate diverse realistic human motions conditioned on varying spatial audio inputs. We perform a thorough investigation of the proposed dataset and conduct extensive experiments for benchmarking, where our method achieves state-of-the-art performance on this task. Our model and dataset will be open-sourced upon acceptance. Please refer to our supplementary video for more details.
PDF241July 17, 2025