Motion Mamba: Generazione Efficiente e a Lunga Sequenza di Movimenti con SSM Selettivo Gerarchico e Bidirezionale
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
March 12, 2024
Autori: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI
Abstract
La generazione del movimento umano rappresenta un obiettivo significativo nella visione artificiale generativa, mentre il raggiungimento di una generazione di movimento efficiente e a lunga sequenza rimane una sfida. I recenti progressi nei modelli a spazio di stati (SSM), in particolare Mamba, hanno dimostrato un notevole potenziale nella modellazione di sequenze lunghe con un design efficiente e consapevole dell'hardware, che sembra essere una direzione promettente su cui costruire un modello di generazione del movimento. Tuttavia, l'adattamento degli SSM alla generazione del movimento incontra ostacoli a causa della mancanza di un'architettura di design specializzata per modellare sequenze di movimento. Per affrontare queste sfide, proponiamo Motion Mamba, un approccio semplice ed efficiente che presenta il primo modello di generazione del movimento basato su SSM. Nello specifico, progettiamo un blocco Hierarchical Temporal Mamba (HTM) per elaborare dati temporali mediante l'assemblaggio di un numero variabile di moduli SSM isolati all'interno di un'architettura U-Net simmetrica, mirata a preservare la coerenza del movimento tra i fotogrammi. Progettiamo inoltre un blocco Bidirectional Spatial Mamba (BSM) per elaborare bidirezionalmente le pose latenti, al fine di migliorare la generazione accurata del movimento all'interno di un fotogramma temporale. Il nostro metodo proposto raggiunge un miglioramento fino al 50% nell'indice FID e una velocità fino a 4 volte superiore sui dataset HumanML3D e KIT-ML rispetto al precedente metodo migliore basato sulla diffusione, dimostrando forti capacità di modellazione di sequenze lunghe di alta qualità e generazione in tempo reale del movimento umano. Visita il sito del progetto: https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative
computer vision, while achieving long-sequence and efficient motion generation
remains challenging. Recent advancements in state space models (SSMs), notably
Mamba, have showcased considerable promise in long sequence modeling with an
efficient hardware-aware design, which appears to be a promising direction to
build motion generation model upon it. Nevertheless, adapting SSMs to motion
generation faces hurdles since the lack of a specialized design architecture to
model motion sequence. To address these challenges, we propose Motion Mamba, a
simple and efficient approach that presents the pioneering motion generation
model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba
(HTM) block to process temporal data by ensemble varying numbers of isolated
SSM modules across a symmetric U-Net architecture aimed at preserving motion
consistency between frames. We also design a Bidirectional Spatial Mamba (BSM)
block to bidirectionally process latent poses, to enhance accurate motion
generation within a temporal frame. Our proposed method achieves up to 50% FID
improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets
compared to the previous best diffusion-based method, which demonstrates strong
capabilities of high-quality long sequence motion modeling and real-time human
motion generation. See project website
https://steve-zeyu-zhang.github.io/MotionMamba/