Движение Mamba: эффективная и долгосрочная генерация последовательности движений с иерархическим и двунаправленным селективным SSM.
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
March 12, 2024
Авторы: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI
Аннотация
Генерация человеческого движения является значительным направлением в области генеративного компьютерного зрения, при этом достижение генерации длинных последовательностей и эффективного движения остается сложной задачей. Недавние достижения в моделях пространства состояний (SSM), в частности в Mamba, продемонстрировали значительный потенциал в моделировании длинных последовательностей с эффективным аппаратно-ориентированным дизайном, который кажется многообещающим направлением для построения модели генерации движения. Тем не менее, адаптация SSM для генерации движения сталкивается с препятствиями из-за отсутствия специализированной архитектуры проектирования для моделирования последовательности движения. Для решения этих проблем мы предлагаем Motion Mamba, простой и эффективный подход, представляющий первоначальную модель генерации движения, использующую SSM. Конкретно, мы разрабатываем блок иерархической временной Mamba (HTM) для обработки временных данных путем ансамблирования различного количества изолированных модулей SSM в симметричной архитектуре U-Net с целью сохранения согласованности движения между кадрами. Мы также разрабатываем блок двунаправленной пространственной Mamba (BSM) для двунаправленной обработки скрытых поз, чтобы улучшить точность генерации движения в пределах временного кадра. Наш метод достигает улучшения FID до 50% и ускорения до 4 раз на наборах данных HumanML3D и KIT-ML по сравнению с предыдущим лучшим методом на основе диффузии, что демонстрирует сильные возможности моделирования высококачественной длинной последовательности движения и генерации человеческого движения в реальном времени. См. веб-сайт проекта https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative
computer vision, while achieving long-sequence and efficient motion generation
remains challenging. Recent advancements in state space models (SSMs), notably
Mamba, have showcased considerable promise in long sequence modeling with an
efficient hardware-aware design, which appears to be a promising direction to
build motion generation model upon it. Nevertheless, adapting SSMs to motion
generation faces hurdles since the lack of a specialized design architecture to
model motion sequence. To address these challenges, we propose Motion Mamba, a
simple and efficient approach that presents the pioneering motion generation
model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba
(HTM) block to process temporal data by ensemble varying numbers of isolated
SSM modules across a symmetric U-Net architecture aimed at preserving motion
consistency between frames. We also design a Bidirectional Spatial Mamba (BSM)
block to bidirectionally process latent poses, to enhance accurate motion
generation within a temporal frame. Our proposed method achieves up to 50% FID
improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets
compared to the previous best diffusion-based method, which demonstrates strong
capabilities of high-quality long sequence motion modeling and real-time human
motion generation. See project website
https://steve-zeyu-zhang.github.io/MotionMamba/Summary
AI-Generated Summary