ChatPaper.aiChatPaper

MotionCLR: Generación de Movimiento y Edición sin Entrenamiento a través de la Comprensión de Mecanismos de Atención

MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

October 24, 2024
Autores: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI

Resumen

Esta investigación aborda el problema de la edición interactiva de la generación de movimientos humanos. Los modelos previos de difusión de movimientos carecen de modelado explícito de la correspondencia texto-movimiento a nivel de palabra y de una buena capacidad explicativa, lo que limita su habilidad de edición detallada. Para abordar este problema, proponemos un modelo de difusión de movimientos basado en atención, denominado MotionCLR, con modelado CLeaR de mecanismos de atención. Técnicamente, MotionCLR modela las interacciones intra-modalidad e inter-modalidad con autoatención y atención cruzada, respectivamente. Específicamente, el mecanismo de autoatención tiene como objetivo medir la similitud secuencial entre fotogramas e impacta en el orden de las características del movimiento. En contraste, el mecanismo de atención cruzada trabaja para encontrar la correspondencia detallada de secuencias de palabras y activar los pasos de tiempo correspondientes en la secuencia de movimientos. Basándonos en estas propiedades clave, desarrollamos un conjunto versátil de métodos simples pero efectivos de edición de movimientos mediante la manipulación de mapas de atención, como (des) enfatizar movimientos, reemplazo de movimientos en su lugar y generación de movimientos basada en ejemplos, entre otros. Para una mayor verificación de la explicabilidad del mecanismo de atención, exploramos adicionalmente el potencial del conteo de acciones y la capacidad de generación de movimientos fundamentada a través de mapas de atención. Nuestros resultados experimentales muestran que nuestro método disfruta de una buena capacidad de generación y edición con una buena explicabilidad.
English
This research delves into the problem of interactive editing of human motion generation. Previous motion diffusion models lack explicit modeling of the word-level text-motion correspondence and good explainability, hence restricting their fine-grained editing ability. To address this issue, we propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR modeling of attention mechanisms. Technically, MotionCLR models the in-modality and cross-modality interactions with self-attention and cross-attention, respectively. More specifically, the self-attention mechanism aims to measure the sequential similarity between frames and impacts the order of motion features. By contrast, the cross-attention mechanism works to find the fine-grained word-sequence correspondence and activate the corresponding timesteps in the motion sequence. Based on these key properties, we develop a versatile set of simple yet effective motion editing methods via manipulating attention maps, such as motion (de-)emphasizing, in-place motion replacement, and example-based motion generation, etc. For further verification of the explainability of the attention mechanism, we additionally explore the potential of action-counting and grounded motion generation ability via attention maps. Our experimental results show that our method enjoys good generation and editing ability with good explainability.

Summary

AI-Generated Summary

PDF152November 16, 2024