MotionLab : Génération et Édition Unifiées des Mouvements Humains via le Paradigme Mouvement-Condition-Mouvement
MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm
February 4, 2025
Auteurs: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI
Résumé
La génération et l'édition des mouvements humains sont des composantes essentielles des graphiques par ordinateur et de la vision. Cependant, les approches actuelles dans ce domaine ont tendance à offrir des solutions isolées adaptées à des tâches spécifiques, ce qui peut être inefficace et peu pratique pour les applications du monde réel. Alors que certains efforts ont visé à unifier les tâches liées au mouvement, ces méthodes utilisent simplement différentes modalités comme conditions pour guider la génération de mouvement. Par conséquent, elles manquent de capacités d'édition, de contrôle fin et ne facilitent pas le partage des connaissances entre les tâches. Pour répondre à ces limitations et fournir un cadre polyvalent et unifié capable de gérer à la fois la génération et l'édition des mouvements humains, nous introduisons un nouveau paradigme : Motion-Condition-Motion, qui permet la formulation unifiée de diverses tâches avec trois concepts : mouvement source, condition et mouvement cible. Sur la base de ce paradigme, nous proposons un cadre unifié, MotionLab, qui intègre des flux rectifiés pour apprendre la correspondance du mouvement source au mouvement cible, guidé par les conditions spécifiées. Dans MotionLab, nous introduisons : 1) le Transformateur de Flux de Mouvement pour améliorer la génération conditionnelle et l'édition sans modules spécifiques à la tâche ; 2) le Codage de Position Rotationnel Aligné pour garantir la synchronisation temporelle entre le mouvement source et le mouvement cible ; 3) la Modulation d'Instruction Spécifique à la Tâche ; et 4) l'Apprentissage de Programme de Mouvement pour un apprentissage multi-tâches efficace et un partage des connaissances entre les tâches. Notamment, notre MotionLab démontre des capacités de généralisation prometteuses et une efficacité d'inférence sur plusieurs référentiels pour le mouvement humain. Notre code et des résultats vidéo supplémentaires sont disponibles sur : https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics
and vision. However, current approaches in this field tend to offer isolated
solutions tailored to specific tasks, which can be inefficient and impractical
for real-world applications. While some efforts have aimed to unify
motion-related tasks, these methods simply use different modalities as
conditions to guide motion generation. Consequently, they lack editing
capabilities, fine-grained control, and fail to facilitate knowledge sharing
across tasks. To address these limitations and provide a versatile, unified
framework capable of handling both human motion generation and editing, we
introduce a novel paradigm: Motion-Condition-Motion, which enables the unified
formulation of diverse tasks with three concepts: source motion, condition, and
target motion. Based on this paradigm, we propose a unified framework,
MotionLab, which incorporates rectified flows to learn the mapping from source
motion to target motion, guided by the specified conditions. In MotionLab, we
introduce the 1) MotionFlow Transformer to enhance conditional generation and
editing without task-specific modules; 2) Aligned Rotational Position Encoding}
to guarantee the time synchronization between source motion and target motion;
3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for
effective multi-task learning and knowledge sharing across tasks. Notably, our
MotionLab demonstrates promising generalization capabilities and inference
efficiency across multiple benchmarks for human motion. Our code and additional
video results are available at: https://diouo.github.io/motionlab.github.io/.Summary
AI-Generated Summary