KMM: Máscara de Fotograma Clave Mamba para la Generación Extendida de Movimiento
KMM: Key Frame Mask Mamba for Extended Motion Generation
November 10, 2024
Autores: Zeyu Zhang, Hang Gao, Akide Liu, Qi Chen, Feng Chen, Yiran Wang, Danning Li, Hao Tang
cs.AI
Resumen
La generación de movimiento humano es un área de vanguardia en la investigación de visión por computadora generativa, con aplicaciones prometedoras en la creación de videos, desarrollo de juegos y manipulación robótica. La reciente arquitectura Mamba muestra resultados prometedores en modelado eficiente de secuencias largas y complejas, sin embargo, dos desafíos significativos persisten: En primer lugar, aplicar directamente Mamba a la generación de movimiento extendido es ineficaz, ya que la capacidad limitada de la memoria implícita conduce a la degradación de la memoria. En segundo lugar, Mamba tiene dificultades con la fusión multimodal en comparación con los Transformadores, y carece de alineación con consultas textuales, a menudo confundiendo direcciones (izquierda o derecha) u omitiendo partes de consultas de texto más largas. Para abordar estos desafíos, nuestro artículo presenta tres contribuciones clave: En primer lugar, presentamos KMM, una arquitectura novedosa que presenta Modelado de Enmascaramiento de Fotogramas Clave, diseñada para mejorar el enfoque de Mamba en acciones clave en segmentos de movimiento. Este enfoque aborda el problema de degradación de la memoria y representa un método pionero en la personalización de enmascaramiento estratégico a nivel de fotograma en SSMs. Además, diseñamos un paradigma de aprendizaje contrastivo para abordar el problema de fusión multimodal en Mamba y mejorar la alineación entre movimiento y texto. Finalmente, realizamos experimentos extensos en el conjunto de datos de referencia, BABEL, logrando un rendimiento de vanguardia con una reducción de más del 57% en FID y un 70% menos de parámetros en comparación con métodos de vanguardia anteriores. Consulte el sitio web del proyecto: https://steve-zeyu-zhang.github.io/KMM
English
Human motion generation is a cut-edge area of research in generative computer
vision, with promising applications in video creation, game development, and
robotic manipulation. The recent Mamba architecture shows promising results in
efficiently modeling long and complex sequences, yet two significant challenges
remain: Firstly, directly applying Mamba to extended motion generation is
ineffective, as the limited capacity of the implicit memory leads to memory
decay. Secondly, Mamba struggles with multimodal fusion compared to
Transformers, and lack alignment with textual queries, often confusing
directions (left or right) or omitting parts of longer text queries. To address
these challenges, our paper presents three key contributions: Firstly, we
introduce KMM, a novel architecture featuring Key frame Masking Modeling,
designed to enhance Mamba's focus on key actions in motion segments. This
approach addresses the memory decay problem and represents a pioneering method
in customizing strategic frame-level masking in SSMs. Additionally, we designed
a contrastive learning paradigm for addressing the multimodal fusion problem in
Mamba and improving the motion-text alignment. Finally, we conducted extensive
experiments on the go-to dataset, BABEL, achieving state-of-the-art performance
with a reduction of more than 57% in FID and 70% parameters compared to
previous state-of-the-art methods. See project website:
https://steve-zeyu-zhang.github.io/KMMSummary
AI-Generated Summary