MotionLab: Единое создание и редактирование движения человека через парадигму движения-условия-движения
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
February 4, 2025
Авторы: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI
Аннотация
Генерация и редактирование движений человека являются ключевыми компонентами компьютерной графики и компьютерного зрения. Однако текущие подходы в этой области обычно предлагают изолированные решения, адаптированные к конкретным задачам, что может быть неэффективным и непрактичным для реальных приложений. Хотя некоторые усилия направлены на объединение задач, эти методы просто используют различные модальности в качестве условий для направления генерации движения. В результате они лишены возможности редактирования, точного контроля и не способствуют обмену знаниями между задачами. Для преодоления этих ограничений и создания универсальной, объединенной структуры, способной обрабатывать как генерацию, так и редактирование движений человека, мы представляем новую парадигму: Motion-Condition-Motion, которая позволяет объединенную формулировку различных задач с тремя концепциями: исходное движение, условие и целевое движение. Основываясь на этой парадигме, мы предлагаем объединенную структуру, MotionLab, которая включает исправленные потоки для изучения отображения от исходного движения к целевому движению, направляемого указанными условиями. В MotionLab мы представляем 1) MotionFlow Transformer для улучшения условной генерации и редактирования без задачеспецифичных модулей; 2) Выровненное вращательное кодирование позиции для гарантирования синхронизации времени между исходным и целевым движениями; 3) Модуляцию инструкций, специфичных для задачи; и 4) Обучение курса движения для эффективного мультизадачного обучения и обмена знаниями между задачами. Значительно, наш MotionLab демонстрирует многообещающие возможности обобщения и эффективность вывода на нескольких бенчмарках для движения человека. Наш код и дополнительные видео-результаты доступны по ссылке: https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics
and vision. However, current approaches in this field tend to offer isolated
solutions tailored to specific tasks, which can be inefficient and impractical
for real-world applications. While some efforts have aimed to unify
motion-related tasks, these methods simply use different modalities as
conditions to guide motion generation. Consequently, they lack editing
capabilities, fine-grained control, and fail to facilitate knowledge sharing
across tasks. To address these limitations and provide a versatile, unified
framework capable of handling both human motion generation and editing, we
introduce a novel paradigm: Motion-Condition-Motion, which enables the unified
formulation of diverse tasks with three concepts: source motion, condition, and
target motion. Based on this paradigm, we propose a unified framework,
MotionLab, which incorporates rectified flows to learn the mapping from source
motion to target motion, guided by the specified conditions. In MotionLab, we
introduce the 1) MotionFlow Transformer to enhance conditional generation and
editing without task-specific modules; 2) Aligned Rotational Position Encoding}
to guarantee the time synchronization between source motion and target motion;
3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for
effective multi-task learning and knowledge sharing across tasks. Notably, our
MotionLab demonstrates promising generalization capabilities and inference
efficiency across multiple benchmarks for human motion. Our code and additional
video results are available at: https://diouo.github.io/motionlab.github.io/.Summary
AI-Generated Summary