MOSPA: Генерация движений человека на основе пространственного звука
MOSPA: Human Motion Generation Driven by Spatial Audio
July 16, 2025
Авторы: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI
Аннотация
Обеспечение динамичного и реалистичного реагирования виртуальных персонажей на разнообразные звуковые стимулы остается ключевой задачей в анимации персонажей, требующей интеграции моделей восприятия и синтеза движений. Несмотря на свою значимость, эта задача остается в значительной степени неисследованной. Большинство предыдущих работ в основном сосредоточились на сопоставлении модальностей, таких как речь, аудио и музыка, для генерации движений человека. Однако до сих пор эти модели обычно игнорируют влияние пространственных характеристик, закодированных в пространственных аудиосигналах, на движения человека. Чтобы устранить этот пробел и обеспечить высококачественное моделирование движений человека в ответ на пространственное аудио, мы представляем первый всеобъемлющий набор данных Spatial Audio-Driven Human Motion (SAM), содержащий разнообразные и высококачественные данные пространственного аудио и движений. Для бенчмаркинга мы разрабатываем простую, но эффективную диффузионную генеративную модель для создания движений человека, управляемых пространственным аудио, под названием MOSPA, которая точно отражает связь между движениями тела и пространственным аудио через эффективный механизм слияния. После обучения MOSPA способна генерировать разнообразные реалистичные движения человека в зависимости от различных входных данных пространственного аудио. Мы проводим тщательное исследование предложенного набора данных и выполняем обширные эксперименты для бенчмаркинга, где наш метод демонстрирует наилучшие результаты в этой задаче. Наша модель и набор данных будут опубликованы в открытом доступе после принятия. Для получения дополнительной информации, пожалуйста, обратитесь к нашему дополнительному видео.
English
Enabling virtual humans to dynamically and realistically respond to diverse
auditory stimuli remains a key challenge in character animation, demanding the
integration of perceptual modeling and motion synthesis. Despite its
significance, this task remains largely unexplored. Most previous works have
primarily focused on mapping modalities like speech, audio, and music to
generate human motion. As of yet, these models typically overlook the impact of
spatial features encoded in spatial audio signals on human motion. To bridge
this gap and enable high-quality modeling of human movements in response to
spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human
Motion (SAM) dataset, which contains diverse and high-quality spatial audio and
motion data. For benchmarking, we develop a simple yet effective
diffusion-based generative framework for human MOtion generation driven by
SPatial Audio, termed MOSPA, which faithfully captures the relationship between
body motion and spatial audio through an effective fusion mechanism. Once
trained, MOSPA could generate diverse realistic human motions conditioned on
varying spatial audio inputs. We perform a thorough investigation of the
proposed dataset and conduct extensive experiments for benchmarking, where our
method achieves state-of-the-art performance on this task. Our model and
dataset will be open-sourced upon acceptance. Please refer to our supplementary
video for more details.