MotionLab: Verenigde Generatie en Bewerking van Menselijke Beweging via het Beweging-Voorwaarde-Beweging Paradigma
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
February 4, 2025
Auteurs: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI
Samenvatting
Het genereren en bewerken van menselijke bewegingen zijn essentiële onderdelen van computergraphics en visie. Echter, de huidige benaderingen in dit vakgebied neigen geïsoleerde oplossingen te bieden die zijn afgestemd op specifieke taken, wat inefficiënt en onpraktisch kan zijn voor praktische toepassingen. Hoewel sommige inspanningen gericht zijn op het verenigen van bewegingsgerelateerde taken, maken deze methoden eenvoudigweg gebruik van verschillende modaliteiten als voorwaarden om bewegingsgeneratie te sturen. Als gevolg hiervan ontbreken bewerkingsmogelijkheden, fijnmazige controle en falen ze in het vergemakkelijken van kennisdeling tussen taken. Om deze beperkingen aan te pakken en een veelzijdig, verenigd kader te bieden dat zowel het genereren als bewerken van menselijke bewegingen aankan, introduceren we een nieuw paradigma: Motion-Condition-Motion, dat de verenigde formulering van diverse taken mogelijk maakt met drie concepten: bronbeweging, voorwaarde en doelbeweging. Op basis van dit paradigma stellen we een verenigd kader voor, MotionLab, dat gecorrigeerde stromen incorporeert om de mapping van bronbeweging naar doelbeweging te leren, geleid door de gespecificeerde voorwaarden. In MotionLab introduceren we de 1) MotionFlow Transformer om conditionele generatie en bewerking te verbeteren zonder taakspecifieke modules; 2) Aligned Rotational Position Encoding om de tijdsynchronisatie tussen bronbeweging en doelbeweging te garanderen; 3) Taakspecifieke Instructie Modulatie; en 4) Motion Curriculum Learning voor effectief multi-task leren en kennisdeling tussen taken. Opmerkelijk is dat ons MotionLab veelbelovende generalisatiecapaciteiten en inferentie-efficiëntie aantoont over meerdere benchmarks voor menselijke bewegingen. Onze code en aanvullende videorresultaten zijn beschikbaar op: https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics
and vision. However, current approaches in this field tend to offer isolated
solutions tailored to specific tasks, which can be inefficient and impractical
for real-world applications. While some efforts have aimed to unify
motion-related tasks, these methods simply use different modalities as
conditions to guide motion generation. Consequently, they lack editing
capabilities, fine-grained control, and fail to facilitate knowledge sharing
across tasks. To address these limitations and provide a versatile, unified
framework capable of handling both human motion generation and editing, we
introduce a novel paradigm: Motion-Condition-Motion, which enables the unified
formulation of diverse tasks with three concepts: source motion, condition, and
target motion. Based on this paradigm, we propose a unified framework,
MotionLab, which incorporates rectified flows to learn the mapping from source
motion to target motion, guided by the specified conditions. In MotionLab, we
introduce the 1) MotionFlow Transformer to enhance conditional generation and
editing without task-specific modules; 2) Aligned Rotational Position Encoding}
to guarantee the time synchronization between source motion and target motion;
3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for
effective multi-task learning and knowledge sharing across tasks. Notably, our
MotionLab demonstrates promising generalization capabilities and inference
efficiency across multiple benchmarks for human motion. Our code and additional
video results are available at: https://diouo.github.io/motionlab.github.io/.Summary
AI-Generated Summary