MotionLab: Generazione e Modifica Unificate del Movimento Umano tramite il Paradigma del Movimento-Condizione-Movimento
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
February 4, 2025
Autori: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI
Abstract
La generazione e la modifica del movimento umano sono componenti chiave della grafica computerizzata e della visione. Tuttavia, gli approcci attuali in questo campo tendono a offrire soluzioni isolate adattate a compiti specifici, che possono essere inefficienti e poco pratici per le applicazioni reali. Mentre alcuni sforzi hanno mirato a unificare i compiti legati al movimento, questi metodi utilizzano semplicemente diverse modalità come condizioni per guidare la generazione del movimento. Di conseguenza, mancano di capacità di modifica, controllo dettagliato e non facilitano la condivisione delle conoscenze tra i compiti. Per affrontare queste limitazioni e fornire un framework versatile e unificato in grado di gestire sia la generazione che la modifica del movimento umano, introduciamo un nuovo paradigma: Motion-Condition-Motion, che consente la formulazione unificata di compiti diversi con tre concetti: movimento di origine, condizione e movimento di destinazione. Basandoci su questo paradigma, proponiamo un framework unificato, MotionLab, che incorpora flussi rettificati per apprendere la mappatura dal movimento di origine al movimento di destinazione, guidata dalle condizioni specificate. In MotionLab, introduciamo il 1) MotionFlow Transformer per migliorare la generazione condizionale e la modifica senza moduli specifici del compito; 2) Codifica della Posizione Rotazionale Allineata per garantire la sincronizzazione temporale tra il movimento di origine e il movimento di destinazione; 3) Modulazione dell'Istruzione Specificata dal Compito; e 4) Apprendimento del Curriculum del Movimento per un apprendimento multitasking efficace e la condivisione delle conoscenze tra i compiti. In particolare, il nostro MotionLab dimostra promettenti capacità di generalizzazione e efficienza inferenziale su diversi benchmark per il movimento umano. Il nostro codice e ulteriori risultati video sono disponibili su: https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics
and vision. However, current approaches in this field tend to offer isolated
solutions tailored to specific tasks, which can be inefficient and impractical
for real-world applications. While some efforts have aimed to unify
motion-related tasks, these methods simply use different modalities as
conditions to guide motion generation. Consequently, they lack editing
capabilities, fine-grained control, and fail to facilitate knowledge sharing
across tasks. To address these limitations and provide a versatile, unified
framework capable of handling both human motion generation and editing, we
introduce a novel paradigm: Motion-Condition-Motion, which enables the unified
formulation of diverse tasks with three concepts: source motion, condition, and
target motion. Based on this paradigm, we propose a unified framework,
MotionLab, which incorporates rectified flows to learn the mapping from source
motion to target motion, guided by the specified conditions. In MotionLab, we
introduce the 1) MotionFlow Transformer to enhance conditional generation and
editing without task-specific modules; 2) Aligned Rotational Position Encoding}
to guarantee the time synchronization between source motion and target motion;
3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for
effective multi-task learning and knowledge sharing across tasks. Notably, our
MotionLab demonstrates promising generalization capabilities and inference
efficiency across multiple benchmarks for human motion. Our code and additional
video results are available at: https://diouo.github.io/motionlab.github.io/.Summary
AI-Generated Summary