ChatPaper.aiChatPaper

MoRL: Verstärktes Schließen für einheitliches Bewegungsverständnis und -generierung

MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

February 16, 2026
papers.authors: Hongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang
cs.AI

papers.abstract

Das Verständnis und die Erzeugung menschlicher Bewegungen sind entscheidend für die Bereiche Computer Vision und Robotik, bleiben jedoch in ihrer Fähigkeit zum logischen Schließen und zur Planung zur Testzeit eingeschränkt. Wir stellen MoRL vor, ein einheitliches multimodales Bewegungsmodell, das durch supervidiertes Fine-Tuning sowie Verstärkendes Lernen mit verifizierbaren Belohnungen trainiert wird. Unser aufgabenspezifisches Belohnungsdesign kombiniert semantische Ausrichtung und Schlussfolgerungskohärenz für das Verständnis mit physikalischer Plausibilität und Text-Bewegungs-Konsistenz für die Erzeugung, wodurch sowohl das logische Denken als auch die perzeptive Realität verbessert werden. Um die Inferenz weiter zu verbessern, führen wir Chain-of-Motion (CoM) ein, eine Reasoning-Methode zur Testzeit, die schrittweise Planung und Reflexion ermöglicht. Zudem erstellen wir zwei groß angelegte CoT-Datensätze, MoUnd-CoT-140K und MoGen-CoT-140K, um Bewegungssequenzen mit Reasoning-Pfaden und Aktionsbeschreibungen abzugleichen. Experimente auf HumanML3D und KIT-ML zeigen, dass MoRL signifikante Verbesserungen gegenüber state-of-the-art Baseline-Modellen erzielt. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
English
Human motion understanding and generation are crucial for vision and robotics but remain limited in reasoning capability and test-time planning. We propose MoRL, a unified multimodal motion model trained with supervised fine-tuning and reinforcement learning with verifiable rewards. Our task-specific reward design combines semantic alignment and reasoning coherence for understanding with physical plausibility and text-motion consistency for generation, improving both logical reasoning and perceptual realism. To further enhance inference, we introduce Chain-of-Motion (CoM), a test-time reasoning method that enables step-by-step planning and reflection. We also construct two large-scale CoT datasets, MoUnd-CoT-140K and MoGen-CoT-140K, to align motion sequences with reasoning traces and action descriptions. Experiments on HumanML3D and KIT-ML show that MoRL achieves significant gains over state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
PDF22February 18, 2026