ChatPaper.aiChatPaper

MOSPA: 空間音響に駆動される人間の動作生成

MOSPA: Human Motion Generation Driven by Spatial Audio

July 16, 2025
著者: Shuyang Xu, Zhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura
cs.AI

要旨

仮想人間が多様な聴覚刺激に対して動的かつリアルに反応することを可能にすることは、キャラクターアニメーションにおける重要な課題であり、知覚モデリングとモーション合成の統合を必要とします。その重要性にもかかわらず、このタスクはまだほとんど未開拓のままです。これまでの研究の多くは、音声、オーディオ、音楽などのモダリティをマッピングして人間のモーションを生成することに焦点を当ててきました。しかし、これらのモデルは通常、空間オーディオ信号にエンコードされた空間的特徴が人間のモーションに与える影響を見落としています。このギャップを埋め、空間オーディオに対する人間の動きの高品質なモデリングを可能にするために、我々は初めての包括的な空間オーディオ駆動人間モーション(SAM)データセットを導入します。このデータセットは、多様で高品質な空間オーディオとモーションデータを含んでいます。ベンチマークのために、我々は空間オーディオ駆動の人間モーション生成のためのシンプルでありながら効果的な拡散ベースの生成フレームワークを開発し、MOSPAと名付けました。MOSPAは、効果的な融合メカニズムを通じて、身体の動きと空間オーディオの関係を忠実に捉えます。一度訓練されると、MOSPAはさまざまな空間オーディオ入力に基づいて多様でリアルな人間のモーションを生成することができます。我々は提案されたデータセットの徹底的な調査を行い、ベンチマークのための広範な実験を実施し、我々の方法がこのタスクにおいて最先端の性能を達成することを示しました。我々のモデルとデータセットは、受理後にオープンソース化されます。詳細については、補足ビデオを参照してください。
English
Enabling virtual humans to dynamically and realistically respond to diverse auditory stimuli remains a key challenge in character animation, demanding the integration of perceptual modeling and motion synthesis. Despite its significance, this task remains largely unexplored. Most previous works have primarily focused on mapping modalities like speech, audio, and music to generate human motion. As of yet, these models typically overlook the impact of spatial features encoded in spatial audio signals on human motion. To bridge this gap and enable high-quality modeling of human movements in response to spatial audio, we introduce the first comprehensive Spatial Audio-Driven Human Motion (SAM) dataset, which contains diverse and high-quality spatial audio and motion data. For benchmarking, we develop a simple yet effective diffusion-based generative framework for human MOtion generation driven by SPatial Audio, termed MOSPA, which faithfully captures the relationship between body motion and spatial audio through an effective fusion mechanism. Once trained, MOSPA could generate diverse realistic human motions conditioned on varying spatial audio inputs. We perform a thorough investigation of the proposed dataset and conduct extensive experiments for benchmarking, where our method achieves state-of-the-art performance on this task. Our model and dataset will be open-sourced upon acceptance. Please refer to our supplementary video for more details.
PDF141July 17, 2025