ChatPaper.aiChatPaper

MOSPA: Geração de Movimento Humano Orientada por Áudio Espacial

MOSPA: Human Motion Generation Driven by Spatial Audio

July 16, 2025
Autores: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI

Resumo

Permitir que humanos virtuais respondam de forma dinâmica e realista a diversos estímulos auditivos continua sendo um desafio fundamental na animação de personagens, exigindo a integração de modelagem perceptiva e síntese de movimento. Apesar de sua importância, essa tarefa permanece amplamente inexplorada. A maioria dos trabalhos anteriores concentrou-se principalmente no mapeamento de modalidades como fala, áudio e música para gerar movimento humano. Até o momento, esses modelos geralmente ignoram o impacto das características espaciais codificadas em sinais de áudio espacial no movimento humano. Para preencher essa lacuna e permitir a modelagem de alta qualidade dos movimentos humanos em resposta ao áudio espacial, introduzimos o primeiro conjunto de dados abrangente de Movimento Humano Impulsionado por Áudio Espacial (SAM, na sigla em inglês), que contém dados diversos e de alta qualidade de áudio espacial e movimento. Para avaliação comparativa, desenvolvemos uma estrutura generativa baseada em difusão simples, porém eficaz, para geração de Movimento humano impulsionado por Áudio Espacial, denominada MOSPA, que captura fielmente a relação entre o movimento corporal e o áudio espacial por meio de um mecanismo de fusão eficaz. Uma vez treinado, o MOSPA pode gerar diversos movimentos humanos realistas condicionados a diferentes entradas de áudio espacial. Realizamos uma investigação detalhada do conjunto de dados proposto e conduzimos experimentos extensivos para avaliação comparativa, onde nosso método alcança desempenho de ponta nessa tarefa. Nosso modelo e conjunto de dados serão disponibilizados como código aberto após a aceitação. Consulte nosso vídeo complementar para mais detalhes.
English
Enabling virtual humans to dynamically and realistically respond to diverse auditory stimuli remains a key challenge in character animation, demanding the integration of perceptual modeling and motion synthesis. Despite its significance, this task remains largely unexplored. Most previous works have primarily focused on mapping modalities like speech, audio, and music to generate human motion. As of yet, these models typically overlook the impact of spatial features encoded in spatial audio signals on human motion. To bridge this gap and enable high-quality modeling of human movements in response to spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human Motion (SAM) dataset, which contains diverse and high-quality spatial audio and motion data. For benchmarking, we develop a simple yet effective diffusion-based generative framework for human MOtion generation driven by SPatial Audio, termed MOSPA, which faithfully captures the relationship between body motion and spatial audio through an effective fusion mechanism. Once trained, MOSPA could generate diverse realistic human motions conditioned on varying spatial audio inputs. We perform a thorough investigation of the proposed dataset and conduct extensive experiments for benchmarking, where our method achieves state-of-the-art performance on this task. Our model and dataset will be open-sourced upon acceptance. Please refer to our supplementary video for more details.
PDF231July 17, 2025