ChatPaper.aiChatPaper

KMM: Máscara de Fotograma Clave Mamba para la Generación Extendida de Movimiento

KMM: Key Frame Mask Mamba for Extended Motion Generation

November 10, 2024
Autores: Zeyu Zhang, Hang Gao, Akide Liu, Qi Chen, Feng Chen, Yiran Wang, Danning Li, Hao Tang
cs.AI

Resumen

La generación de movimiento humano es un área de vanguardia en la investigación de visión por computadora generativa, con aplicaciones prometedoras en la creación de videos, desarrollo de juegos y manipulación robótica. La reciente arquitectura Mamba muestra resultados prometedores en modelado eficiente de secuencias largas y complejas, sin embargo, dos desafíos significativos persisten: En primer lugar, aplicar directamente Mamba a la generación de movimiento extendido es ineficaz, ya que la capacidad limitada de la memoria implícita conduce a la degradación de la memoria. En segundo lugar, Mamba tiene dificultades con la fusión multimodal en comparación con los Transformadores, y carece de alineación con consultas textuales, a menudo confundiendo direcciones (izquierda o derecha) u omitiendo partes de consultas de texto más largas. Para abordar estos desafíos, nuestro artículo presenta tres contribuciones clave: En primer lugar, presentamos KMM, una arquitectura novedosa que presenta Modelado de Enmascaramiento de Fotogramas Clave, diseñada para mejorar el enfoque de Mamba en acciones clave en segmentos de movimiento. Este enfoque aborda el problema de degradación de la memoria y representa un método pionero en la personalización de enmascaramiento estratégico a nivel de fotograma en SSMs. Además, diseñamos un paradigma de aprendizaje contrastivo para abordar el problema de fusión multimodal en Mamba y mejorar la alineación entre movimiento y texto. Finalmente, realizamos experimentos extensos en el conjunto de datos de referencia, BABEL, logrando un rendimiento de vanguardia con una reducción de más del 57% en FID y un 70% menos de parámetros en comparación con métodos de vanguardia anteriores. Consulte el sitio web del proyecto: https://steve-zeyu-zhang.github.io/KMM
English
Human motion generation is a cut-edge area of research in generative computer vision, with promising applications in video creation, game development, and robotic manipulation. The recent Mamba architecture shows promising results in efficiently modeling long and complex sequences, yet two significant challenges remain: Firstly, directly applying Mamba to extended motion generation is ineffective, as the limited capacity of the implicit memory leads to memory decay. Secondly, Mamba struggles with multimodal fusion compared to Transformers, and lack alignment with textual queries, often confusing directions (left or right) or omitting parts of longer text queries. To address these challenges, our paper presents three key contributions: Firstly, we introduce KMM, a novel architecture featuring Key frame Masking Modeling, designed to enhance Mamba's focus on key actions in motion segments. This approach addresses the memory decay problem and represents a pioneering method in customizing strategic frame-level masking in SSMs. Additionally, we designed a contrastive learning paradigm for addressing the multimodal fusion problem in Mamba and improving the motion-text alignment. Finally, we conducted extensive experiments on the go-to dataset, BABEL, achieving state-of-the-art performance with a reduction of more than 57% in FID and 70% parameters compared to previous state-of-the-art methods. See project website: https://steve-zeyu-zhang.github.io/KMM

Summary

AI-Generated Summary

PDF42November 12, 2024