MotionCLR: Генерация движения и редактирование без обучения через понимание механизмов внимания
MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
October 24, 2024
Авторы: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang
cs.AI
Аннотация
Данное исследование затрагивает проблему интерактивного редактирования генерации движения человека. Предыдущие модели диффузии движения лишены явного моделирования соответствия текста и движения на уровне слов и хорошей объяснимости, что ограничивает их способность к тонкой настройке. Для решения этой проблемы мы предлагаем модель диффузии движения на основе внимания, названную MotionCLR, с явным моделированием механизмов внимания CLeaR. Технически MotionCLR моделирует внутри-модальное и перекрестное взаимодействие с помощью самовнимания и перекрестного внимания соответственно. Более конкретно, механизм самовнимания направлен на измерение последовательной схожести между кадрами и влияет на порядок характеристик движения. В отличие от этого, механизм перекрестного внимания работает на поиск тонкого соответствия последовательности слов и активации соответствующих временных шагов в последовательности движения. Исходя из этих ключевых свойств, мы разрабатываем универсальный набор простых, но эффективных методов редактирования движения путем манипулирования картами внимания, таких как (де-)эмфазирование движения, замена движения на месте и генерация движения на основе примеров и т. д. Для дальнейшей проверки объяснимости механизма внимания мы дополнительно исследуем потенциал подсчета действий и способности к генерации движения на основе внимания. Наши экспериментальные результаты показывают, что наш метод обладает хорошей способностью к генерации и редактированию с хорошей объяснимостью.
English
This research delves into the problem of interactive editing of human motion
generation. Previous motion diffusion models lack explicit modeling of the
word-level text-motion correspondence and good explainability, hence
restricting their fine-grained editing ability. To address this issue, we
propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR
modeling of attention mechanisms. Technically, MotionCLR models the in-modality
and cross-modality interactions with self-attention and cross-attention,
respectively. More specifically, the self-attention mechanism aims to measure
the sequential similarity between frames and impacts the order of motion
features. By contrast, the cross-attention mechanism works to find the
fine-grained word-sequence correspondence and activate the corresponding
timesteps in the motion sequence. Based on these key properties, we develop a
versatile set of simple yet effective motion editing methods via manipulating
attention maps, such as motion (de-)emphasizing, in-place motion replacement,
and example-based motion generation, etc. For further verification of the
explainability of the attention mechanism, we additionally explore the
potential of action-counting and grounded motion generation ability via
attention maps. Our experimental results show that our method enjoys good
generation and editing ability with good explainability.Summary
AI-Generated Summary