ChatPaper.aiChatPaper

MoRL: 統合的な運動理解と生成のための強化学習型推論

MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

February 16, 2026
著者: Hongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang
cs.AI

要旨

人間の動作理解と生成は、コンピュータビジョンとロボティクスにおいて重要であるが、推論能力とテスト時計画の点で未だ限界がある。本論文では、教師ありファインチューニングと検証可能な報酬を用いた強化学習により訓練された統一マルチモーダル動作モデルMoRLを提案する。タスク特化的な報酬設計は、理解タスクにおいては意味的整合性と推論的一貫性を、生成タスクにおいては物理的な妥当性とテキスト-動作一貫性を組み合わせており、論理的推論と知覚的リアリズムの両方を改善する。推論をさらに強化するため、段階的な計画と振り返りを可能にするテスト時推論手法Chain-of-Motion (CoM) を導入する。また、動作シーケンスと推論トレース及び行動記述を整合させるため、大規模なCoTデータセットMoUnd-CoT-140KおよびMoGen-CoT-140Kを構築した。HumanML3DとKIT-MLにおける実験により、MoRLが既存の最先端ベースラインを大きく上回る性能を達成することを示す。コード: https://github.com/AIGeeksGroup/MoRL. ウェブサイト: https://aigeeksgroup.github.io/MoRL.
English
Human motion understanding and generation are crucial for vision and robotics but remain limited in reasoning capability and test-time planning. We propose MoRL, a unified multimodal motion model trained with supervised fine-tuning and reinforcement learning with verifiable rewards. Our task-specific reward design combines semantic alignment and reasoning coherence for understanding with physical plausibility and text-motion consistency for generation, improving both logical reasoning and perceptual realism. To further enhance inference, we introduce Chain-of-Motion (CoM), a test-time reasoning method that enables step-by-step planning and reflection. We also construct two large-scale CoT datasets, MoUnd-CoT-140K and MoGen-CoT-140K, to align motion sequences with reasoning traces and action descriptions. Experiments on HumanML3D and KIT-ML show that MoRL achieves significant gains over state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
PDF22February 18, 2026