MoRL: 통합 모션 이해 및 생성을 위한 강화 추론
MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation
February 16, 2026
저자: Hongpeng Wang, Zeyu Zhang, Wenhao Li, Hao Tang
cs.AI
초록
인간 동작 이해 및 생성은 컴퓨터 비전과 로봇공학 분야에서 중요하지만, 여전히 추론 능력과 테스트 시점 계획 수립 측면에서 한계가 있습니다. 본 연구에서는 감독 미세 조정과 검증 가능한 보상을 활용한 강화 학습으로 훈련된 통합 멀티모달 모션 모델인 MoRL을 제안합니다. 과제 특화형 보상 설계는 이해를 위한 의미론적 정렬과 추론 일관성, 생성물을 위한 물리적 타당성과 텍스트-모션 일관성을 결합하여 논리적 추론과 지각적 현실감을 모두 향상시킵니다. 추론 성능을 더욱 향상시키기 위해 단계별 계획 수립과 성찰을 가능하게 하는 테스트 시점 추론 방법인 Chain-of-Motion(CoM)을 도입했습니다. 또한 모션 시퀀스와 추론 흔적 및 행동 설명을 정렬하기 위한 두 가지 대규모 CoT 데이터셋(MoUnd-CoT-140K 및 MoGen-CoT-140K)을 구축했습니다. HumanML3D와 KIT-ML에서의 실험 결과, MoRL이 최첨단 기준선 대비 상당한 성능 향상을 달성함을 보여줍니다. 코드: https://github.com/AIGeeksGroup/MoRL. 웹사이트: https://aigeeksgroup.github.io/MoRL.
English
Human motion understanding and generation are crucial for vision and robotics but remain limited in reasoning capability and test-time planning. We propose MoRL, a unified multimodal motion model trained with supervised fine-tuning and reinforcement learning with verifiable rewards. Our task-specific reward design combines semantic alignment and reasoning coherence for understanding with physical plausibility and text-motion consistency for generation, improving both logical reasoning and perceptual realism. To further enhance inference, we introduce Chain-of-Motion (CoM), a test-time reasoning method that enables step-by-step planning and reflection. We also construct two large-scale CoT datasets, MoUnd-CoT-140K and MoGen-CoT-140K, to align motion sequences with reasoning traces and action descriptions. Experiments on HumanML3D and KIT-ML show that MoRL achieves significant gains over state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.