MoRL: Ragionamento Rinforzato per la Comprensione e Generazione Unificata del Movimento
MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation
February 16, 2026
Autori: Hongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang
cs.AI
Abstract
La comprensione e la generazione del moto umano sono cruciali per la visione artificiale e la robotica, ma rimangono limitate nelle capacità di ragionamento e nella pianificazione in fase di test. Proponiamo MoRL, un modello di moto multimodale unificato addestrato con fine-tuning supervisionato e apprendimento per rinforzo con ricompense verificabili. La nostra progettazione di ricompense specifiche per task combina allineamento semantico e coerenza del ragionamento per la comprensione, con plausibilità fisica e coerenza testo-moto per la generazione, migliorando sia il ragionamento logico che il realismo percettivo. Per potenziare ulteriormente l'inferenza, introduciamo Chain-of-Motion (CoM), un metodo di ragionamento in fase di test che consente una pianificazione e una riflessione passo-passo. Costruiamo inoltre due dataset CoT su larga scala, MoUnd-CoT-140K e MoGen-CoT-140K, per allineare sequenze di moto con tracce di ragionamento e descrizioni di azioni. Gli esperimenti su HumanML3D e KIT-ML mostrano che MoRL ottiene miglioramenti significativi rispetto ai baseline state-of-the-art. Codice: https://github.com/AIGeeksGroup/MoRL. Sito web: https://aigeeksgroup.github.io/MoRL.
English
Human motion understanding and generation are crucial for vision and robotics but remain limited in reasoning capability and test-time planning. We propose MoRL, a unified multimodal motion model trained with supervised fine-tuning and reinforcement learning with verifiable rewards. Our task-specific reward design combines semantic alignment and reasoning coherence for understanding with physical plausibility and text-motion consistency for generation, improving both logical reasoning and perceptual realism. To further enhance inference, we introduce Chain-of-Motion (CoM), a test-time reasoning method that enables step-by-step planning and reflection. We also construct two large-scale CoT datasets, MoUnd-CoT-140K and MoGen-CoT-140K, to align motion sequences with reasoning traces and action descriptions. Experiments on HumanML3D and KIT-ML show that MoRL achieves significant gains over state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.