MotionLab: Generación y Edición Unificadas de Movimiento Humano a través del Paradigma de Condición de Movimiento-Movimiento

Resumen

La generación y edición de movimientos humanos son componentes clave de la gráfica por computadora y la visión. Sin embargo, los enfoques actuales en este campo tienden a ofrecer soluciones aisladas adaptadas a tareas específicas, lo que puede ser ineficiente e impráctico para aplicaciones del mundo real. Aunque algunos esfuerzos han buscado unificar tareas relacionadas con el movimiento, estos métodos simplemente utilizan diferentes modalidades como condiciones para guiar la generación de movimientos. En consecuencia, carecen de capacidades de edición, control detallado y no facilitan el intercambio de conocimientos entre tareas. Para abordar estas limitaciones y proporcionar un marco unificado versátil capaz de manejar tanto la generación como la edición de movimientos humanos, presentamos un nuevo paradigma: Movimiento-Condición-Movimiento, que permite la formulación unificada de diversas tareas con tres conceptos: movimiento fuente, condición y movimiento objetivo. Basándonos en este paradigma, proponemos un marco unificado, MotionLab, que incorpora flujos rectificados para aprender la correspondencia del movimiento fuente al movimiento objetivo, guiado por las condiciones especificadas. En MotionLab, introducimos 1) el Transformador de Flujo de Movimiento para mejorar la generación condicional y la edición sin módulos específicos de tarea; 2) Codificación de Posición Rotacional Alineada para garantizar la sincronización temporal entre el movimiento fuente y el movimiento objetivo; 3) Modulación de Instrucciones Específicas de Tarea; y 4) Aprendizaje Curricular de Movimiento para un aprendizaje multi-tarea efectivo y el intercambio de conocimientos entre tareas. Notablemente, nuestro MotionLab demuestra prometedoras capacidades de generalización y eficiencia de inferencia en múltiples referencias para el movimiento humano. Nuestro código y resultados de video adicionales están disponibles en: https://diouo.github.io/motionlab.github.io/.

English

Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion. Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions. In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.

MotionLab: Generación y Edición Unificadas de Movimiento Humano a través del Paradigma de Condición de Movimiento-Movimiento

MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

Resumen

Support