MotionLab: Generación y Edición Unificadas de Movimiento Humano a través del Paradigma de Condición de Movimiento-Movimiento
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
February 4, 2025
Autores: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI
Resumen
La generación y edición de movimientos humanos son componentes clave de la gráfica por computadora y la visión. Sin embargo, los enfoques actuales en este campo tienden a ofrecer soluciones aisladas adaptadas a tareas específicas, lo que puede ser ineficiente e impráctico para aplicaciones del mundo real. Aunque algunos esfuerzos han buscado unificar tareas relacionadas con el movimiento, estos métodos simplemente utilizan diferentes modalidades como condiciones para guiar la generación de movimientos. En consecuencia, carecen de capacidades de edición, control detallado y no facilitan el intercambio de conocimientos entre tareas. Para abordar estas limitaciones y proporcionar un marco unificado versátil capaz de manejar tanto la generación como la edición de movimientos humanos, presentamos un nuevo paradigma: Movimiento-Condición-Movimiento, que permite la formulación unificada de diversas tareas con tres conceptos: movimiento fuente, condición y movimiento objetivo. Basándonos en este paradigma, proponemos un marco unificado, MotionLab, que incorpora flujos rectificados para aprender la correspondencia del movimiento fuente al movimiento objetivo, guiado por las condiciones especificadas. En MotionLab, introducimos 1) el Transformador de Flujo de Movimiento para mejorar la generación condicional y la edición sin módulos específicos de tarea; 2) Codificación de Posición Rotacional Alineada para garantizar la sincronización temporal entre el movimiento fuente y el movimiento objetivo; 3) Modulación de Instrucciones Específicas de Tarea; y 4) Aprendizaje Curricular de Movimiento para un aprendizaje multi-tarea efectivo y el intercambio de conocimientos entre tareas. Notablemente, nuestro MotionLab demuestra prometedoras capacidades de generalización y eficiencia de inferencia en múltiples referencias para el movimiento humano. Nuestro código y resultados de video adicionales están disponibles en: https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics
and vision. However, current approaches in this field tend to offer isolated
solutions tailored to specific tasks, which can be inefficient and impractical
for real-world applications. While some efforts have aimed to unify
motion-related tasks, these methods simply use different modalities as
conditions to guide motion generation. Consequently, they lack editing
capabilities, fine-grained control, and fail to facilitate knowledge sharing
across tasks. To address these limitations and provide a versatile, unified
framework capable of handling both human motion generation and editing, we
introduce a novel paradigm: Motion-Condition-Motion, which enables the unified
formulation of diverse tasks with three concepts: source motion, condition, and
target motion. Based on this paradigm, we propose a unified framework,
MotionLab, which incorporates rectified flows to learn the mapping from source
motion to target motion, guided by the specified conditions. In MotionLab, we
introduce the 1) MotionFlow Transformer to enhance conditional generation and
editing without task-specific modules; 2) Aligned Rotational Position Encoding}
to guarantee the time synchronization between source motion and target motion;
3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for
effective multi-task learning and knowledge sharing across tasks. Notably, our
MotionLab demonstrates promising generalization capabilities and inference
efficiency across multiple benchmarks for human motion. Our code and additional
video results are available at: https://diouo.github.io/motionlab.github.io/.Summary
AI-Generated Summary