Motion Mamba: Geração Eficiente e de Longa Sequência de Movimento com SSM Seletivo Hierárquico e Bidirecional
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
March 12, 2024
Autores: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI
Resumo
A geração de movimento humano representa uma busca significativa na visão computacional generativa, enquanto a obtenção de geração de movimento de longa sequência e eficiente continua sendo um desafio. Avanços recentes em modelos de espaço de estados (SSMs), notadamente o Mamba, demonstraram considerável promessa na modelagem de sequências longas com um design eficiente e consciente do hardware, o que parece ser uma direção promissora para a construção de modelos de geração de movimento. No entanto, a adaptação de SSMs para a geração de movimento enfrenta obstáculos devido à falta de uma arquitetura de design especializada para modelar sequências de movimento. Para enfrentar esses desafios, propomos o Motion Mamba, uma abordagem simples e eficiente que apresenta o pioneiro modelo de geração de movimento utilizando SSMs. Especificamente, projetamos um bloco Hierarchical Temporal Mamba (HTM) para processar dados temporais, combinando números variados de módulos SSM isolados em uma arquitetura U-Net simétrica, com o objetivo de preservar a consistência do movimento entre os quadros. Também projetamos um bloco Bidirectional Spatial Mamba (BSM) para processar bidirecionalmente poses latentes, a fim de melhorar a geração precisa de movimento dentro de um quadro temporal. Nosso método proposto alcança uma melhoria de até 50% no FID e é até 4 vezes mais rápido nos conjuntos de dados HumanML3D e KIT-ML em comparação com o melhor método baseado em difusão anterior, demonstrando fortes capacidades de modelagem de movimento de longa sequência de alta qualidade e geração de movimento humano em tempo real. Consulte o site do projeto em https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative
computer vision, while achieving long-sequence and efficient motion generation
remains challenging. Recent advancements in state space models (SSMs), notably
Mamba, have showcased considerable promise in long sequence modeling with an
efficient hardware-aware design, which appears to be a promising direction to
build motion generation model upon it. Nevertheless, adapting SSMs to motion
generation faces hurdles since the lack of a specialized design architecture to
model motion sequence. To address these challenges, we propose Motion Mamba, a
simple and efficient approach that presents the pioneering motion generation
model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba
(HTM) block to process temporal data by ensemble varying numbers of isolated
SSM modules across a symmetric U-Net architecture aimed at preserving motion
consistency between frames. We also design a Bidirectional Spatial Mamba (BSM)
block to bidirectionally process latent poses, to enhance accurate motion
generation within a temporal frame. Our proposed method achieves up to 50% FID
improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets
compared to the previous best diffusion-based method, which demonstrates strong
capabilities of high-quality long sequence motion modeling and real-time human
motion generation. See project website
https://steve-zeyu-zhang.github.io/MotionMamba/