Bewegungs-Mamba: Effiziente und lange Sequenz-Bewegungserzeugung mit hierarchischem und bidirektionalem selektivem SSM.
Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM
March 12, 2024
Autoren: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI
Zusammenfassung
Die Generierung menschlicher Bewegungen stellt eine bedeutende Verfolgung in der generativen Computer Vision dar, während die Erreichung einer effizienten Bewegungsgenerierung für lange Sequenzen eine Herausforderung darstellt. Kürzliche Fortschritte in Zustandsraummodellen (SSMs), insbesondere Mamba, haben beträchtliches Potenzial in der Modellierung langer Sequenzen mit einem effizienten, hardwarebewussten Design gezeigt, das sich als vielversprechende Richtung für den Aufbau eines Bewegungsgenerierungsmodells darstellt. Dennoch stoßen Anpassungen von SSMs an die Bewegungsgenerierung auf Hindernisse, da es an einer spezialisierten Designarchitektur zur Modellierung von Bewegungssequenzen mangelt. Um diesen Herausforderungen zu begegnen, schlagen wir Motion Mamba vor, einen einfachen und effizienten Ansatz, der das wegweisende Bewegungsgenerierungsmodell auf SSMs basierend nutzt. Konkret entwerfen wir einen Hierarchischen Temporalen Mamba (HTM)-Block zur Verarbeitung von zeitlichen Daten durch das Zusammenführen verschiedener isolierter SSM-Module über eine symmetrische U-Net-Architektur, die darauf abzielt, die Bewegungskonsistenz zwischen Frames zu bewahren. Wir entwerfen auch einen Bidirektionalen Räumlichen Mamba (BSM)-Block zur bidirektionalen Verarbeitung latenter Posen, um die präzise Bewegungsgenerierung innerhalb eines zeitlichen Rahmens zu verbessern. Unsere vorgeschlagene Methode erzielt eine bis zu 50%ige Verbesserung des FID und ist bis zu 4-mal schneller auf den HumanML3D- und KIT-ML-Datensätzen im Vergleich zur vorherigen besten diffusionsbasierten Methode, was starke Fähigkeiten in der hochwertigen Modellierung langer Sequenzen von Bewegungen und der Echtzeitgenerierung menschlicher Bewegungen zeigt. Besuchen Sie die Projektwebsite unter https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative
computer vision, while achieving long-sequence and efficient motion generation
remains challenging. Recent advancements in state space models (SSMs), notably
Mamba, have showcased considerable promise in long sequence modeling with an
efficient hardware-aware design, which appears to be a promising direction to
build motion generation model upon it. Nevertheless, adapting SSMs to motion
generation faces hurdles since the lack of a specialized design architecture to
model motion sequence. To address these challenges, we propose Motion Mamba, a
simple and efficient approach that presents the pioneering motion generation
model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba
(HTM) block to process temporal data by ensemble varying numbers of isolated
SSM modules across a symmetric U-Net architecture aimed at preserving motion
consistency between frames. We also design a Bidirectional Spatial Mamba (BSM)
block to bidirectionally process latent poses, to enhance accurate motion
generation within a temporal frame. Our proposed method achieves up to 50% FID
improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets
compared to the previous best diffusion-based method, which demonstrates strong
capabilities of high-quality long sequence motion modeling and real-time human
motion generation. See project website
https://steve-zeyu-zhang.github.io/MotionMamba/Summary
AI-Generated Summary