ChatPaper.aiChatPaper

MotionCLR: Генерация движения и редактирование без обучения через понимание механизмов внимания

MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

October 24, 2024
Авторы: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI

Аннотация

Данное исследование затрагивает проблему интерактивного редактирования генерации движения человека. Предыдущие модели диффузии движения лишены явного моделирования соответствия текста и движения на уровне слов и хорошей объяснимости, что ограничивает их способность к тонкой настройке. Для решения этой проблемы мы предлагаем модель диффузии движения на основе внимания, названную MotionCLR, с явным моделированием механизмов внимания CLeaR. Технически MotionCLR моделирует внутри-модальное и перекрестное взаимодействие с помощью самовнимания и перекрестного внимания соответственно. Более конкретно, механизм самовнимания направлен на измерение последовательной схожести между кадрами и влияет на порядок характеристик движения. В отличие от этого, механизм перекрестного внимания работает на поиск тонкого соответствия последовательности слов и активации соответствующих временных шагов в последовательности движения. Исходя из этих ключевых свойств, мы разрабатываем универсальный набор простых, но эффективных методов редактирования движения путем манипулирования картами внимания, таких как (де-)эмфазирование движения, замена движения на месте и генерация движения на основе примеров и т. д. Для дальнейшей проверки объяснимости механизма внимания мы дополнительно исследуем потенциал подсчета действий и способности к генерации движения на основе внимания. Наши экспериментальные результаты показывают, что наш метод обладает хорошей способностью к генерации и редактированию с хорошей объяснимостью.
English
This research delves into the problem of interactive editing of human motion generation. Previous motion diffusion models lack explicit modeling of the word-level text-motion correspondence and good explainability, hence restricting their fine-grained editing ability. To address this issue, we propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR modeling of attention mechanisms. Technically, MotionCLR models the in-modality and cross-modality interactions with self-attention and cross-attention, respectively. More specifically, the self-attention mechanism aims to measure the sequential similarity between frames and impacts the order of motion features. By contrast, the cross-attention mechanism works to find the fine-grained word-sequence correspondence and activate the corresponding timesteps in the motion sequence. Based on these key properties, we develop a versatile set of simple yet effective motion editing methods via manipulating attention maps, such as motion (de-)emphasizing, in-place motion replacement, and example-based motion generation, etc. For further verification of the explainability of the attention mechanism, we additionally explore the potential of action-counting and grounded motion generation ability via attention maps. Our experimental results show that our method enjoys good generation and editing ability with good explainability.

Summary

AI-Generated Summary

PDF152November 16, 2024