MotionLab: Geração e Edição Unificadas de Movimento Humano através do Paradigma de Condição de Movimento-Movimento
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
February 4, 2025
Autores: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI
Resumo
A geração e edição de movimento humano são componentes-chave de gráficos por computador e visão. No entanto, as abordagens atuais nesse campo tendem a oferecer soluções isoladas adaptadas a tarefas específicas, o que pode ser ineficiente e impraticável para aplicações do mundo real. Embora alguns esforços tenham visado unificar tarefas relacionadas ao movimento, esses métodos simplesmente utilizam diferentes modalidades como condições para orientar a geração de movimento. Consequentemente, eles carecem de capacidades de edição, controle refinado e falham em facilitar o compartilhamento de conhecimento entre tarefas. Para lidar com essas limitações e fornecer um framework versátil e unificado capaz de lidar tanto com a geração quanto com a edição de movimento humano, introduzimos um novo paradigma: Movimento-Condição-Movimento, que permite a formulação unificada de diversas tarefas com três conceitos: movimento de origem, condição e movimento alvo. Com base nesse paradigma, propomos um framework unificado, MotionLab, que incorpora fluxos retificados para aprender o mapeamento do movimento de origem para o movimento alvo, guiado pelas condições especificadas. No MotionLab, introduzimos o 1) Transformador de Fluxo de Movimento para aprimorar a geração condicional e edição sem módulos específicos da tarefa; 2) Codificação de Posição Rotacional Alinhada para garantir a sincronização temporal entre o movimento de origem e o movimento alvo; 3) Modulação de Instrução Específica da Tarefa; e 4) Aprendizado de Currículo de Movimento para aprendizado multi-tarefa eficaz e compartilhamento de conhecimento entre tarefas. Notavelmente, nosso MotionLab demonstra promissoras capacidades de generalização e eficiência de inferência em diversos benchmarks para movimento humano. Nosso código e resultados de vídeo adicionais estão disponíveis em: https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics
and vision. However, current approaches in this field tend to offer isolated
solutions tailored to specific tasks, which can be inefficient and impractical
for real-world applications. While some efforts have aimed to unify
motion-related tasks, these methods simply use different modalities as
conditions to guide motion generation. Consequently, they lack editing
capabilities, fine-grained control, and fail to facilitate knowledge sharing
across tasks. To address these limitations and provide a versatile, unified
framework capable of handling both human motion generation and editing, we
introduce a novel paradigm: Motion-Condition-Motion, which enables the unified
formulation of diverse tasks with three concepts: source motion, condition, and
target motion. Based on this paradigm, we propose a unified framework,
MotionLab, which incorporates rectified flows to learn the mapping from source
motion to target motion, guided by the specified conditions. In MotionLab, we
introduce the 1) MotionFlow Transformer to enhance conditional generation and
editing without task-specific modules; 2) Aligned Rotational Position Encoding}
to guarantee the time synchronization between source motion and target motion;
3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for
effective multi-task learning and knowledge sharing across tasks. Notably, our
MotionLab demonstrates promising generalization capabilities and inference
efficiency across multiple benchmarks for human motion. Our code and additional
video results are available at: https://diouo.github.io/motionlab.github.io/.Summary
AI-Generated Summary