MoRL : Raisonnement par Renforcement pour une Compréhension et une Génération Unifiées du Mouvement
MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation
February 16, 2026
papers.authors: Hongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang
cs.AI
papers.abstract
La compréhension et la génération du mouvement humain sont cruciales pour la vision et la robotique, mais leurs capacités de raisonnement et de planification en temps de test restent limitées. Nous proposons MoRL, un modèle de mouvement multimodal unifié entraîné par fine-tuning supervisé et apprentissage par renforcement avec des récompenses vérifiables. Notre conception de récompenses spécifique aux tâches combine l'alignement sémantique et la cohérence du raisonnement pour la compréhension, avec la plausibilité physique et la cohérence texte-mouvement pour la génération, améliorant à la fois le raisonnement logique et le réalisme perceptuel. Pour renforcer davantage l'inférence, nous introduisons Chain-of-Motion (CoM), une méthode de raisonnement en temps de test permettant une planification et une réflexion étape par étape. Nous construisons également deux jeux de données CoT à grande échelle, MoUnd-CoT-140K et MoGen-CoT-140K, pour aligner les séquences de mouvement avec les traces de raisonnement et les descriptions d'actions. Les expériences sur HumanML3D et KIT-ML montrent que MoRL obtient des gains significatifs par rapport à l'état de l'art. Code : https://github.com/AIGeeksGroup/MoRL. Site web : https://aigeeksgroup.github.io/MoRL.
English
Human motion understanding and generation are crucial for vision and robotics but remain limited in reasoning capability and test-time planning. We propose MoRL, a unified multimodal motion model trained with supervised fine-tuning and reinforcement learning with verifiable rewards. Our task-specific reward design combines semantic alignment and reasoning coherence for understanding with physical plausibility and text-motion consistency for generation, improving both logical reasoning and perceptual realism. To further enhance inference, we introduce Chain-of-Motion (CoM), a test-time reasoning method that enables step-by-step planning and reflection. We also construct two large-scale CoT datasets, MoUnd-CoT-140K and MoGen-CoT-140K, to align motion sequences with reasoning traces and action descriptions. Experiments on HumanML3D and KIT-ML show that MoRL achieves significant gains over state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.