Motion Mamba: Geração Eficiente e de Longa Sequência de Movimento com SSM Seletivo Hierárquico e Bidirecional

Resumo

A geração de movimento humano representa uma busca significativa na visão computacional generativa, enquanto a obtenção de geração de movimento de longa sequência e eficiente continua sendo um desafio. Avanços recentes em modelos de espaço de estados (SSMs), notadamente o Mamba, demonstraram considerável promessa na modelagem de sequências longas com um design eficiente e consciente do hardware, o que parece ser uma direção promissora para a construção de modelos de geração de movimento. No entanto, a adaptação de SSMs para a geração de movimento enfrenta obstáculos devido à falta de uma arquitetura de design especializada para modelar sequências de movimento. Para enfrentar esses desafios, propomos o Motion Mamba, uma abordagem simples e eficiente que apresenta o pioneiro modelo de geração de movimento utilizando SSMs. Especificamente, projetamos um bloco Hierarchical Temporal Mamba (HTM) para processar dados temporais, combinando números variados de módulos SSM isolados em uma arquitetura U-Net simétrica, com o objetivo de preservar a consistência do movimento entre os quadros. Também projetamos um bloco Bidirectional Spatial Mamba (BSM) para processar bidirecionalmente poses latentes, a fim de melhorar a geração precisa de movimento dentro de um quadro temporal. Nosso método proposto alcança uma melhoria de até 50% no FID e é até 4 vezes mais rápido nos conjuntos de dados HumanML3D e KIT-ML em comparação com o melhor método baseado em difusão anterior, demonstrando fortes capacidades de modelagem de movimento de longa sequência de alta qualidade e geração de movimento humano em tempo real. Consulte o site do projeto em https://steve-zeyu-zhang.github.io/MotionMamba/

English

Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/

Motion Mamba: Geração Eficiente e de Longa Sequência de Movimento com SSM Seletivo Hierárquico e Bidirecional

Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM

Resumo

Support