MoRL: Versterkt Redeneren voor Geünificeerd Bewegingsbegrip en -generatie
MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation
February 16, 2026
Auteurs: Hongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang
cs.AI
Samenvatting
Het begrijpen en genereren van menselijke beweging is cruciaal voor visie en robotica, maar de redeneervaardigheid en planning tijdens tests blijven beperkt. Wij stellen MoRL voor, een verenigd multimodaal bewegingsmodel getraind met supervised fine-tuning en reinforcement learning met verifieerbare beloningen. Ons taakspecifieke beloningsontwerp combineert semantische uitlijning en redeneersamenhang voor begrip met fysieke plausibiliteit en tekst-bewegingsconsistentie voor generatie, wat zowel het logisch redeneren als de perceptuele realiteit verbetert. Om de inferentie verder te verbeteren, introduceren we Chain-of-Motion (CoM), een redeneermethode tijdens tests die stapsgewijze planning en reflectie mogelijk maakt. We construeren ook twee grootschalige CoT-datasets, MoUnd-CoT-140K en MoGen-CoT-140K, om bewegingsequenties uit te lijnen met redeneersporen en actiebeschrijvingen. Experimenten op HumanML3D en KIT-ML tonen aan dat MoRL significante verbeteringen bereikt ten opzichte van state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
English
Human motion understanding and generation are crucial for vision and robotics but remain limited in reasoning capability and test-time planning. We propose MoRL, a unified multimodal motion model trained with supervised fine-tuning and reinforcement learning with verifiable rewards. Our task-specific reward design combines semantic alignment and reasoning coherence for understanding with physical plausibility and text-motion consistency for generation, improving both logical reasoning and perceptual realism. To further enhance inference, we introduce Chain-of-Motion (CoM), a test-time reasoning method that enables step-by-step planning and reflection. We also construct two large-scale CoT datasets, MoUnd-CoT-140K and MoGen-CoT-140K, to align motion sequences with reasoning traces and action descriptions. Experiments on HumanML3D and KIT-ML show that MoRL achieves significant gains over state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.