Motion Mamba: Efficiënte en Lange Sequentiële Bewegingsgeneratie met Hiërarchische en Bidirectionele Selectieve SSM
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
March 12, 2024
Auteurs: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI
Samenvatting
Het genereren van menselijke bewegingen vormt een belangrijk streven binnen generatieve computervisie, terwijl het bereiken van lange sequenties en efficiënte bewegingsgeneratie een uitdaging blijft. Recente vooruitgang in state space models (SSM's), met name Mamba, heeft aanzienlijke belofte getoond in het modelleren van lange sequenties met een efficiënt hardwarebewust ontwerp, wat een veelbelovende richting lijkt om een bewegingsgeneratiemodel op te baseren. Desalniettemin stuit het aanpassen van SSM's aan bewegingsgeneratie op hindernissen vanwege het ontbreken van een gespecialiseerde ontwerparchitectuur om bewegingssequenties te modelleren. Om deze uitdagingen aan te pakken, stellen we Motion Mamba voor, een eenvoudige en efficiënte aanpak die het pionierende bewegingsgeneratiemodel presenteert dat gebruik maakt van SSM's. Specifiek ontwerpen we een Hierarchical Temporal Mamba (HTM)-blok om temporele data te verwerken door een variërend aantal geïsoleerde SSM-modules te combineren binnen een symmetrische U-Net-architectuur, gericht op het behouden van bewegingsconsistentie tussen frames. We ontwerpen ook een Bidirectional Spatial Mamba (BSM)-blok om latente poses bidirectioneel te verwerken, om nauwkeurige bewegingsgeneratie binnen een temporeel frame te verbeteren. Onze voorgestelde methode behaalt tot 50% FID-verbetering en is tot 4 keer sneller op de HumanML3D- en KIT-ML-datasets vergeleken met de vorige beste op diffusie gebaseerde methode, wat sterke capaciteiten aantoont voor het modelleren van hoogwaardige lange sequentiebewegingen en real-time generatie van menselijke bewegingen. Zie projectwebsite https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative
computer vision, while achieving long-sequence and efficient motion generation
remains challenging. Recent advancements in state space models (SSMs), notably
Mamba, have showcased considerable promise in long sequence modeling with an
efficient hardware-aware design, which appears to be a promising direction to
build motion generation model upon it. Nevertheless, adapting SSMs to motion
generation faces hurdles since the lack of a specialized design architecture to
model motion sequence. To address these challenges, we propose Motion Mamba, a
simple and efficient approach that presents the pioneering motion generation
model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba
(HTM) block to process temporal data by ensemble varying numbers of isolated
SSM modules across a symmetric U-Net architecture aimed at preserving motion
consistency between frames. We also design a Bidirectional Spatial Mamba (BSM)
block to bidirectionally process latent poses, to enhance accurate motion
generation within a temporal frame. Our proposed method achieves up to 50% FID
improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets
compared to the previous best diffusion-based method, which demonstrates strong
capabilities of high-quality long sequence motion modeling and real-time human
motion generation. See project website
https://steve-zeyu-zhang.github.io/MotionMamba/