ChatPaper.aiChatPaper

Motion Mamba : Génération efficace de mouvements sur de longues séquences avec un SSM sélectif hiérarchique et bidirectionnel

Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM

March 12, 2024
Auteurs: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI

Résumé

La génération de mouvements humains constitue un enjeu majeur dans le domaine de la vision par ordinateur générative, tandis que la réalisation de séquences longues et efficaces reste un défi. Les récents progrès des modèles à espace d'états (SSMs), notamment Mamba, ont montré un potentiel considérable dans la modélisation de longues séquences grâce à une conception matérielle efficace, ce qui semble être une voie prometteuse pour construire un modèle de génération de mouvements. Cependant, l'adaptation des SSMs à la génération de mouvements rencontre des obstacles en raison de l'absence d'une architecture spécialement conçue pour modéliser les séquences de mouvements. Pour relever ces défis, nous proposons Motion Mamba, une approche simple et efficace qui présente le premier modèle de génération de mouvements utilisant des SSMs. Plus précisément, nous concevons un bloc Hiérarchique Temporel Mamba (HTM) pour traiter les données temporelles en assemblant un nombre variable de modules SSM isolés au sein d'une architecture symétrique en U-Net, visant à préserver la cohérence des mouvements entre les images. Nous concevons également un bloc Mamba Spatial Bidirectionnel (BSM) pour traiter bidirectionnellement les poses latentes, afin d'améliorer la précision de la génération de mouvements dans un cadre temporel. Notre méthode proposée atteint une amélioration allant jusqu'à 50 % sur l'indice FID et une vitesse jusqu'à 4 fois supérieure sur les ensembles de données HumanML3D et KIT-ML par rapport à la meilleure méthode basée sur la diffusion précédente, démontrant ainsi de solides capacités de modélisation de longues séquences de mouvements de haute qualité et de génération en temps réel de mouvements humains. Consultez le site du projet : https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/

Summary

AI-Generated Summary

PDF174December 15, 2024