ChatPaper.aiChatPaper

KMM: Máscara de Quadro-Chave Mamba para Geração de Movimento Estendido

KMM: Key Frame Mask Mamba for Extended Motion Generation

November 10, 2024
Autores: Zeyu Zhang, Hang Gao, Akide Liu, Qi Chen, Feng Chen, Yiran Wang, Danning Li, Hao Tang
cs.AI

Resumo

A geração de movimento humano é uma área de pesquisa de ponta em visão computacional generativa, com aplicações promissoras na criação de vídeos, desenvolvimento de jogos e manipulação robótica. A recente arquitetura Mamba apresenta resultados promissores na modelagem eficiente de sequências longas e complexas, no entanto, dois desafios significativos permanecem: em primeiro lugar, a aplicação direta do Mamba para a geração de movimento estendido é ineficaz, devido à capacidade limitada da memória implícita que leva à deterioração da memória. Em segundo lugar, o Mamba enfrenta dificuldades com a fusão multimodal em comparação com os Transformers, e a falta de alinhamento com consultas textuais, frequentemente confundindo direções (esquerda ou direita) ou omitindo partes de consultas de texto mais longas. Para enfrentar esses desafios, nosso artigo apresenta três contribuições-chave: em primeiro lugar, introduzimos o KMM, uma arquitetura inovadora apresentando Modelagem de Máscara de Quadro-Chave, projetada para aprimorar o foco do Mamba em ações-chave em segmentos de movimento. Esta abordagem aborda o problema da deterioração da memória e representa um método pioneiro na personalização de máscaras estratégicas ao nível do quadro em SSMs. Além disso, projetamos um paradigma de aprendizado contrastivo para abordar o problema de fusão multimodal no Mamba e melhorar o alinhamento entre movimento e texto. Por fim, realizamos experimentos extensivos no conjunto de dados de referência, BABEL, alcançando desempenho de ponta com uma redução de mais de 57% no FID e 70% de parâmetros em comparação com métodos anteriores de ponta. Consulte o site do projeto: https://steve-zeyu-zhang.github.io/KMM
English
Human motion generation is a cut-edge area of research in generative computer vision, with promising applications in video creation, game development, and robotic manipulation. The recent Mamba architecture shows promising results in efficiently modeling long and complex sequences, yet two significant challenges remain: Firstly, directly applying Mamba to extended motion generation is ineffective, as the limited capacity of the implicit memory leads to memory decay. Secondly, Mamba struggles with multimodal fusion compared to Transformers, and lack alignment with textual queries, often confusing directions (left or right) or omitting parts of longer text queries. To address these challenges, our paper presents three key contributions: Firstly, we introduce KMM, a novel architecture featuring Key frame Masking Modeling, designed to enhance Mamba's focus on key actions in motion segments. This approach addresses the memory decay problem and represents a pioneering method in customizing strategic frame-level masking in SSMs. Additionally, we designed a contrastive learning paradigm for addressing the multimodal fusion problem in Mamba and improving the motion-text alignment. Finally, we conducted extensive experiments on the go-to dataset, BABEL, achieving state-of-the-art performance with a reduction of more than 57% in FID and 70% parameters compared to previous state-of-the-art methods. See project website: https://steve-zeyu-zhang.github.io/KMM
PDF52November 12, 2024