ChatPaper.aiChatPaper

MOSPA: Generazione del Movimento Umano Guidata dall'Audio Spaziale

MOSPA: Human Motion Generation Driven by Spatial Audio

July 16, 2025
Autori: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI

Abstract

Abilitare gli esseri umani virtuali a rispondere in modo dinamico e realistico a stimoli uditivi diversi rimane una sfida chiave nell'animazione dei personaggi, richiedendo l'integrazione di modellazione percettiva e sintesi del movimento. Nonostante la sua importanza, questo compito rimane in gran parte inesplorato. La maggior parte dei lavori precedenti si è concentrata principalmente sulla mappatura di modalità come il parlato, l'audio e la musica per generare il movimento umano. Fino ad ora, questi modelli tipicamente trascurano l'impatto delle caratteristiche spaziali codificate nei segnali audio spaziali sul movimento umano. Per colmare questa lacuna e consentire una modellazione di alta qualità dei movimenti umani in risposta all'audio spaziale, introduciamo il primo dataset completo di Movimento Umano Guidato da Audio Spaziale (SAM), che contiene dati audio spaziali e di movimento diversi e di alta qualità. Per il benchmarking, sviluppiamo un framework generativo basato su diffusione semplice ma efficace per la generazione del movimento umano guidato da audio spaziale, denominato MOSPA, che cattura fedelmente la relazione tra il movimento del corpo e l'audio spaziale attraverso un meccanismo di fusione efficace. Una volta addestrato, MOSPA può generare movimenti umani realistici e diversificati condizionati da diversi input audio spaziali. Effettuiamo un'indagine approfondita del dataset proposto e conduciamo esperimenti estesi per il benchmarking, dove il nostro metodo raggiunge prestazioni all'avanguardia su questo compito. Il nostro modello e il dataset saranno open-source al momento dell'accettazione. Si prega di fare riferimento al nostro video supplementare per maggiori dettagli.
English
Enabling virtual humans to dynamically and realistically respond to diverse auditory stimuli remains a key challenge in character animation, demanding the integration of perceptual modeling and motion synthesis. Despite its significance, this task remains largely unexplored. Most previous works have primarily focused on mapping modalities like speech, audio, and music to generate human motion. As of yet, these models typically overlook the impact of spatial features encoded in spatial audio signals on human motion. To bridge this gap and enable high-quality modeling of human movements in response to spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human Motion (SAM) dataset, which contains diverse and high-quality spatial audio and motion data. For benchmarking, we develop a simple yet effective diffusion-based generative framework for human MOtion generation driven by SPatial Audio, termed MOSPA, which faithfully captures the relationship between body motion and spatial audio through an effective fusion mechanism. Once trained, MOSPA could generate diverse realistic human motions conditioned on varying spatial audio inputs. We perform a thorough investigation of the proposed dataset and conduct extensive experiments for benchmarking, where our method achieves state-of-the-art performance on this task. Our model and dataset will be open-sourced upon acceptance. Please refer to our supplementary video for more details.
PDF231July 17, 2025