ChatPaper.aiChatPaper

Bewegungs-Mamba: Effiziente und lange Sequenz-Bewegungserzeugung mit hierarchischem und bidirektionalem selektivem SSM.

Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM

March 12, 2024
Autoren: Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang
cs.AI

Zusammenfassung

Die Generierung menschlicher Bewegungen stellt eine bedeutende Verfolgung in der generativen Computer Vision dar, während die Erreichung einer effizienten Bewegungsgenerierung für lange Sequenzen eine Herausforderung darstellt. Kürzliche Fortschritte in Zustandsraummodellen (SSMs), insbesondere Mamba, haben beträchtliches Potenzial in der Modellierung langer Sequenzen mit einem effizienten, hardwarebewussten Design gezeigt, das sich als vielversprechende Richtung für den Aufbau eines Bewegungsgenerierungsmodells darstellt. Dennoch stoßen Anpassungen von SSMs an die Bewegungsgenerierung auf Hindernisse, da es an einer spezialisierten Designarchitektur zur Modellierung von Bewegungssequenzen mangelt. Um diesen Herausforderungen zu begegnen, schlagen wir Motion Mamba vor, einen einfachen und effizienten Ansatz, der das wegweisende Bewegungsgenerierungsmodell auf SSMs basierend nutzt. Konkret entwerfen wir einen Hierarchischen Temporalen Mamba (HTM)-Block zur Verarbeitung von zeitlichen Daten durch das Zusammenführen verschiedener isolierter SSM-Module über eine symmetrische U-Net-Architektur, die darauf abzielt, die Bewegungskonsistenz zwischen Frames zu bewahren. Wir entwerfen auch einen Bidirektionalen Räumlichen Mamba (BSM)-Block zur bidirektionalen Verarbeitung latenter Posen, um die präzise Bewegungsgenerierung innerhalb eines zeitlichen Rahmens zu verbessern. Unsere vorgeschlagene Methode erzielt eine bis zu 50%ige Verbesserung des FID und ist bis zu 4-mal schneller auf den HumanML3D- und KIT-ML-Datensätzen im Vergleich zur vorherigen besten diffusionsbasierten Methode, was starke Fähigkeiten in der hochwertigen Modellierung langer Sequenzen von Bewegungen und der Echtzeitgenerierung menschlicher Bewegungen zeigt. Besuchen Sie die Projektwebsite unter https://steve-zeyu-zhang.github.io/MotionMamba/
English
Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/

Summary

AI-Generated Summary

PDF174December 15, 2024