WorldCompass: 장기적 세계 모델을 위한 강화 학습
WorldCompass: Reinforcement Learning for Long-Horizon World Models
February 9, 2026
저자: Zehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao
cs.AI
초록
본 연구에서는 장기적이고 상호작용적인 비디오 기반 월드 모델을 위한 새로운 강화학습(RL) 후처리 프레임워크인 WorldCompass를 제안한다. 이 프레임워크는 상호작용 신호를 기반으로 월드 모델이 세계를 더 정확하고 일관성 있게 탐색할 수 있도록 한다. 월드 모델의 탐색을 효과적으로 "조종"하기 위해 자기회귀 비디오 생성 패러다임에 맞춰 세 가지 핵심 혁신을 도입했다: 1) 클립 단위 롤아웃 전략: 단일 목표 클립에서 여러 샘플을 생성 및 평가하여 롤아웃 효율을 크게 높이고 세분화된 보상 신호를 제공한다. 2) 상호 보완적 보상 함수: 상호작용 추종 정확도와 시각적 품질 모두를 위한 보상 함수를 설계하여 직접적인 지도를 제공하고 보상 해킹 행위를 효과적으로 억제한다. 3) 효율적인 RL 알고리즘: 다양한 효율성 최적화와 결합된 네거티브 인식 미세 조정 전략을 적용하여 모델 성능을 효율적이고 효과적으로 향상시킨다. 최첨단 오픈소스 월드 모델인 WorldPlay에 대한 평가 결과, WorldCompass가 다양한 시나리오에서 상호작용 정확도와 시각적 정확도를 크게 개선함을 입증하였다.
English
This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.