WorldCompass : Apprentissage par Renforcement pour des Modèles du Monde à Long Terme
WorldCompass: Reinforcement Learning for Long-Horizon World Models
February 9, 2026
papers.authors: Zehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao
cs.AI
papers.abstract
Ce travail présente WorldCompass, un nouveau cadre de post-entraînement par Apprentissage par Renforcement (RL) pour les modèles du monde interactifs et de long horizon basés sur la vidéo, leur permettant d'explorer le monde de manière plus précise et cohérente en se basant sur des signaux d'interaction. Pour "orienter" efficacement l'exploration du modèle du monde, nous introduisons trois innovations clés adaptées au paradigme de génération vidéo autoregressive : 1) Stratégie de déploiement au niveau du clip : Nous générons et évaluons plusieurs échantillons pour un clip cible unique, ce qui améliore significativement l'efficacité du déploiement et fournit des signaux de récompense à granularité fine. 2) Fonctions de récompense complémentaires : Nous concevons des fonctions de récompense pour la précision du suivi des interactions et la qualité visuelle, qui fournissent une supervision directe et suppriment efficacement les comportements de détournement de récompense. 3) Algorithme de RL efficace : Nous utilisons une stratégie de réglage fin sensible aux négatifs, associée à diverses optimisations d'efficacité, pour améliorer de manière efficiente et efficace la capacité du modèle. Les évaluations sur WorldPlay, un modèle du monde open-source à l'état de l'art, démontrent que WorldCompass améliore significativement la précision des interactions et la fidélité visuelle dans divers scénarios.
English
This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.