MotionCLR: Geração de Movimento e Edição sem Treinamento por meio da Compreensão de Mecanismos de Atenção
MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
October 24, 2024
Autores: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI
Resumo
Esta pesquisa aborda o problema da edição interativa na geração de movimento humano. Modelos anteriores de difusão de movimento carecem de modelagem explícita da correspondência texto-movimento em nível de palavra e de boa explicabilidade, restringindo assim sua capacidade de edição detalhada. Para lidar com esse problema, propomos um modelo de difusão de movimento baseado em atenção, chamado MotionCLR, com modelagem CLeaR de mecanismos de atenção. Tecnicamente, o MotionCLR modela as interações intra-modalidade e inter-modalidade com autoatenção e interatenção, respectivamente. Mais especificamente, o mecanismo de autoatenção visa medir a similaridade sequencial entre quadros e impacta a ordem dos recursos de movimento. Em contraste, o mecanismo de interatenção trabalha para encontrar a correspondência detalhada de sequência de palavras e ativar os passos correspondentes na sequência de movimento. Com base nessas propriedades-chave, desenvolvemos um conjunto versátil de métodos simples, porém eficazes, de edição de movimento por meio da manipulação de mapas de atenção, como (des) enfatização de movimento, substituição de movimento no local e geração de movimento com base em exemplos, etc. Para uma verificação adicional da explicabilidade do mecanismo de atenção, exploramos adicionalmente o potencial de contagem de ações e capacidade de geração de movimento fundamentada por meio de mapas de atenção. Nossos resultados experimentais mostram que nosso método apresenta boa capacidade de geração e edição com boa explicabilidade.
English
This research delves into the problem of interactive editing of human motion
generation. Previous motion diffusion models lack explicit modeling of the
word-level text-motion correspondence and good explainability, hence
restricting their fine-grained editing ability. To address this issue, we
propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR
modeling of attention mechanisms. Technically, MotionCLR models the in-modality
and cross-modality interactions with self-attention and cross-attention,
respectively. More specifically, the self-attention mechanism aims to measure
the sequential similarity between frames and impacts the order of motion
features. By contrast, the cross-attention mechanism works to find the
fine-grained word-sequence correspondence and activate the corresponding
timesteps in the motion sequence. Based on these key properties, we develop a
versatile set of simple yet effective motion editing methods via manipulating
attention maps, such as motion (de-)emphasizing, in-place motion replacement,
and example-based motion generation, etc. For further verification of the
explainability of the attention mechanism, we additionally explore the
potential of action-counting and grounded motion generation ability via
attention maps. Our experimental results show that our method enjoys good
generation and editing ability with good explainability.Summary
AI-Generated Summary