ChatPaper.aiChatPaper

Motion Mamba: Generación Eficiente de Movimientos con Secuencias Largas mediante SSM Selectivo Jerárquico y Bidireccional

Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM

March 12, 2024
Autores: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI

Resumen

La generación de movimiento humano representa un objetivo significativo en la visión por computadora generativa, mientras que lograr la generación de secuencias largas y eficientes sigue siendo un desafío. Los avances recientes en los modelos de espacio de estados (SSMs), particularmente Mamba, han mostrado un considerable potencial en el modelado de secuencias largas con un diseño eficiente consciente del hardware, lo que parece ser una dirección prometedora para construir un modelo de generación de movimiento basado en ellos. Sin embargo, adaptar los SSMs a la generación de movimiento enfrenta obstáculos debido a la falta de una arquitectura de diseño especializada para modelar secuencias de movimiento. Para abordar estos desafíos, proponemos Motion Mamba, un enfoque simple y eficiente que presenta el primer modelo de generación de movimiento que utiliza SSMs. Específicamente, diseñamos un bloque Jerárquico Temporal Mamba (HTM) para procesar datos temporales mediante el ensamblaje de un número variable de módulos SSM aislados en una arquitectura U-Net simétrica destinada a preservar la consistencia del movimiento entre fotogramas. También diseñamos un bloque Mamba Espacial Bidireccional (BSM) para procesar bidireccionalmente poses latentes, con el fin de mejorar la generación precisa de movimiento dentro de un marco temporal. Nuestro método propuesto logra una mejora de hasta el 50% en FID y es hasta 4 veces más rápido en los conjuntos de datos HumanML3D y KIT-ML en comparación con el mejor método basado en difusión anterior, lo que demuestra una fuerte capacidad para el modelado de secuencias largas de movimiento de alta calidad y la generación de movimiento humano en tiempo real. Consulte el sitio web del proyecto https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/

Summary

AI-Generated Summary

PDF174December 15, 2024