ChatPaper.aiChatPaper

MotionLab: Verenigde Generatie en Bewerking van Menselijke Beweging via het Beweging-Voorwaarde-Beweging Paradigma

MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

February 4, 2025
Auteurs: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI

Samenvatting

Het genereren en bewerken van menselijke bewegingen zijn essentiële onderdelen van computergraphics en visie. Echter, de huidige benaderingen in dit vakgebied neigen geïsoleerde oplossingen te bieden die zijn afgestemd op specifieke taken, wat inefficiënt en onpraktisch kan zijn voor praktische toepassingen. Hoewel sommige inspanningen gericht zijn op het verenigen van bewegingsgerelateerde taken, maken deze methoden eenvoudigweg gebruik van verschillende modaliteiten als voorwaarden om bewegingsgeneratie te sturen. Als gevolg hiervan ontbreken bewerkingsmogelijkheden, fijnmazige controle en falen ze in het vergemakkelijken van kennisdeling tussen taken. Om deze beperkingen aan te pakken en een veelzijdig, verenigd kader te bieden dat zowel het genereren als bewerken van menselijke bewegingen aankan, introduceren we een nieuw paradigma: Motion-Condition-Motion, dat de verenigde formulering van diverse taken mogelijk maakt met drie concepten: bronbeweging, voorwaarde en doelbeweging. Op basis van dit paradigma stellen we een verenigd kader voor, MotionLab, dat gecorrigeerde stromen incorporeert om de mapping van bronbeweging naar doelbeweging te leren, geleid door de gespecificeerde voorwaarden. In MotionLab introduceren we de 1) MotionFlow Transformer om conditionele generatie en bewerking te verbeteren zonder taakspecifieke modules; 2) Aligned Rotational Position Encoding om de tijdsynchronisatie tussen bronbeweging en doelbeweging te garanderen; 3) Taakspecifieke Instructie Modulatie; en 4) Motion Curriculum Learning voor effectief multi-task leren en kennisdeling tussen taken. Opmerkelijk is dat ons MotionLab veelbelovende generalisatiecapaciteiten en inferentie-efficiëntie aantoont over meerdere benchmarks voor menselijke bewegingen. Onze code en aanvullende videorresultaten zijn beschikbaar op: https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion. Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions. In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.

Summary

AI-Generated Summary

PDF183February 7, 2025