Motion Mamba : Génération efficace de mouvements sur de longues séquences avec un SSM sélectif hiérarchique et bidirectionnel
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
March 12, 2024
Auteurs: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI
Résumé
La génération de mouvements humains constitue un enjeu majeur dans le domaine de la vision par ordinateur générative, tandis que la réalisation de séquences longues et efficaces reste un défi. Les récents progrès des modèles à espace d'états (SSMs), notamment Mamba, ont montré un potentiel considérable dans la modélisation de longues séquences grâce à une conception matérielle efficace, ce qui semble être une voie prometteuse pour construire un modèle de génération de mouvements. Cependant, l'adaptation des SSMs à la génération de mouvements rencontre des obstacles en raison de l'absence d'une architecture spécialement conçue pour modéliser les séquences de mouvements. Pour relever ces défis, nous proposons Motion Mamba, une approche simple et efficace qui présente le premier modèle de génération de mouvements utilisant des SSMs. Plus précisément, nous concevons un bloc Hiérarchique Temporel Mamba (HTM) pour traiter les données temporelles en assemblant un nombre variable de modules SSM isolés au sein d'une architecture symétrique en U-Net, visant à préserver la cohérence des mouvements entre les images. Nous concevons également un bloc Mamba Spatial Bidirectionnel (BSM) pour traiter bidirectionnellement les poses latentes, afin d'améliorer la précision de la génération de mouvements dans un cadre temporel. Notre méthode proposée atteint une amélioration allant jusqu'à 50 % sur l'indice FID et une vitesse jusqu'à 4 fois supérieure sur les ensembles de données HumanML3D et KIT-ML par rapport à la meilleure méthode basée sur la diffusion précédente, démontrant ainsi de solides capacités de modélisation de longues séquences de mouvements de haute qualité et de génération en temps réel de mouvements humains. Consultez le site du projet : https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative
computer vision, while achieving long-sequence and efficient motion generation
remains challenging. Recent advancements in state space models (SSMs), notably
Mamba, have showcased considerable promise in long sequence modeling with an
efficient hardware-aware design, which appears to be a promising direction to
build motion generation model upon it. Nevertheless, adapting SSMs to motion
generation faces hurdles since the lack of a specialized design architecture to
model motion sequence. To address these challenges, we propose Motion Mamba, a
simple and efficient approach that presents the pioneering motion generation
model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba
(HTM) block to process temporal data by ensemble varying numbers of isolated
SSM modules across a symmetric U-Net architecture aimed at preserving motion
consistency between frames. We also design a Bidirectional Spatial Mamba (BSM)
block to bidirectionally process latent poses, to enhance accurate motion
generation within a temporal frame. Our proposed method achieves up to 50% FID
improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets
compared to the previous best diffusion-based method, which demonstrates strong
capabilities of high-quality long sequence motion modeling and real-time human
motion generation. See project website
https://steve-zeyu-zhang.github.io/MotionMamba/Summary
AI-Generated Summary