ChatPaper.aiChatPaper

MotionLab : Génération et Édition Unifiées des Mouvements Humains via le Paradigme Mouvement-Condition-Mouvement

MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

February 4, 2025
Auteurs: Ziyan Guo, Zeyu Hu, Na Zhao, De Wen Soh
cs.AI

Résumé

La génération et l'édition des mouvements humains sont des composantes essentielles des graphiques par ordinateur et de la vision. Cependant, les approches actuelles dans ce domaine ont tendance à offrir des solutions isolées adaptées à des tâches spécifiques, ce qui peut être inefficace et peu pratique pour les applications du monde réel. Alors que certains efforts ont visé à unifier les tâches liées au mouvement, ces méthodes utilisent simplement différentes modalités comme conditions pour guider la génération de mouvement. Par conséquent, elles manquent de capacités d'édition, de contrôle fin et ne facilitent pas le partage des connaissances entre les tâches. Pour répondre à ces limitations et fournir un cadre polyvalent et unifié capable de gérer à la fois la génération et l'édition des mouvements humains, nous introduisons un nouveau paradigme : Motion-Condition-Motion, qui permet la formulation unifiée de diverses tâches avec trois concepts : mouvement source, condition et mouvement cible. Sur la base de ce paradigme, nous proposons un cadre unifié, MotionLab, qui intègre des flux rectifiés pour apprendre la correspondance du mouvement source au mouvement cible, guidé par les conditions spécifiées. Dans MotionLab, nous introduisons : 1) le Transformateur de Flux de Mouvement pour améliorer la génération conditionnelle et l'édition sans modules spécifiques à la tâche ; 2) le Codage de Position Rotationnel Aligné pour garantir la synchronisation temporelle entre le mouvement source et le mouvement cible ; 3) la Modulation d'Instruction Spécifique à la Tâche ; et 4) l'Apprentissage de Programme de Mouvement pour un apprentissage multi-tâches efficace et un partage des connaissances entre les tâches. Notamment, notre MotionLab démontre des capacités de généralisation prometteuses et une efficacité d'inférence sur plusieurs référentiels pour le mouvement humain. Notre code et des résultats vidéo supplémentaires sont disponibles sur : https://diouo.github.io/motionlab.github.io/.
English
Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion. Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions. In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.

Summary

AI-Generated Summary

PDF183February 7, 2025