ChatPaper.aiChatPaper

MOSPA: 공간 오디오 기반 인간 동작 생성

MOSPA: Human Motion Generation Driven by Spatial Audio

July 16, 2025
저자: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI

초록

다양한 청각 자극에 대해 가상 인간이 동적이고 사실적으로 반응하도록 만드는 것은 캐릭터 애니메이션에서 여전히 주요 과제로, 지각 모델링과 동작 합성의 통합을 요구합니다. 그 중요성에도 불구하고, 이 작업은 대부분 탐구되지 않은 상태로 남아 있습니다. 대부분의 기존 연구는 주로 음성, 오디오, 음악과 같은 양상을 매핑하여 인간 동작을 생성하는 데 초점을 맞추었습니다. 그러나 이러한 모델들은 일반적으로 공간 오디오 신호에 인코딩된 공간적 특징이 인간 동작에 미치는 영향을 간과합니다. 이러한 격차를 해소하고 공간 오디오에 대한 인간 동작의 고품질 모델링을 가능하게 하기 위해, 우리는 다양한 고품질의 공간 오디오와 동작 데이터를 포함한 첫 번째 포괄적인 공간 오디오 기반 인간 동작(SAM) 데이터셋을 소개합니다. 벤치마킹을 위해, 우리는 공간 오디오에 의해 구동되는 인간 동작 생성을 위한 간단하지만 효과적인 확산 기반 생성 프레임워크인 MOSPA를 개발했습니다. 이 프레임워크는 효과적인 융합 메커니즘을 통해 신체 동작과 공간 오디오 간의 관계를 충실히 포착합니다. 한 번 훈련되면, MOSPA는 다양한 공간 오디오 입력에 조건부로 다양한 사실적인 인간 동작을 생성할 수 있습니다. 우리는 제안된 데이터셋에 대한 철저한 조사를 수행하고 벤치마킹을 위한 광범위한 실험을 진행했으며, 우리의 방법은 이 작업에서 최첨단 성능을 달성했습니다. 우리의 모델과 데이터셋은 승인 후 오픈소스로 공개될 예정입니다. 더 자세한 내용은 보충 비디오를 참조하십시오.
English
Enabling virtual humans to dynamically and realistically respond to diverse auditory stimuli remains a key challenge in character animation, demanding the integration of perceptual modeling and motion synthesis. Despite its significance, this task remains largely unexplored. Most previous works have primarily focused on mapping modalities like speech, audio, and music to generate human motion. As of yet, these models typically overlook the impact of spatial features encoded in spatial audio signals on human motion. To bridge this gap and enable high-quality modeling of human movements in response to spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human Motion (SAM) dataset, which contains diverse and high-quality spatial audio and motion data. For benchmarking, we develop a simple yet effective diffusion-based generative framework for human MOtion generation driven by SPatial Audio, termed MOSPA, which faithfully captures the relationship between body motion and spatial audio through an effective fusion mechanism. Once trained, MOSPA could generate diverse realistic human motions conditioned on varying spatial audio inputs. We perform a thorough investigation of the proposed dataset and conduct extensive experiments for benchmarking, where our method achieves state-of-the-art performance on this task. Our model and dataset will be open-sourced upon acceptance. Please refer to our supplementary video for more details.
PDF141July 17, 2025