WorldCompass: Verstärkendes Lernen für Weltmodelle mit langem Planungshorizont
WorldCompass: Reinforcement Learning for Long-Horizon World Models
February 9, 2026
papers.authors: Zehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao
cs.AI
papers.abstract
Diese Arbeit stellt WorldCompass vor, ein neuartiges Reinforcement-Learning-(RL)-Nachtrainierungs-Framework für langfristige, interaktive videobasierte Weltmodelle, das es diesen ermöglicht, die Welt basierend auf Interaktionssignalen genauer und konsistenter zu erkunden. Um die Exploration des Weltmodells effektiv zu "steuern", führen wir drei zentrale Innovationen ein, die auf das autoregressive Videogenerierungs-Paradigma zugeschnitten sind: 1) Clip-basierte Rollout-Strategie: Wir generieren und bewerten mehrere Stichproben für einen einzelnen Ziel-Clip, was die Rollout-Effizienz erheblich steigert und fein granulare Belohnungssignale liefert. 2) Komplementäre Belohnungsfunktionen: Wir entwerfen Belohnungsfunktionen sowohl für die Interaktionsfolgegenauigkeit als auch für die visuelle Qualität, die direkte Aufsicht bieten und Belohnungsmanipulation effektiv unterdrücken. 3) Effizienter RL-Algorithmus: Wir setzen die negativitätsbewusste Feinabstimmung (Negative-Aware Fine-Tuning) in Verbindung mit verschiedenen Effizienzoptimierungen ein, um die Modellkapazität effizient und effektiv zu steigern. Evaluationen am state-of-the-art Open-Source-Weltmodell WorldPlay zeigen, dass WorldCompass die Interaktionsgenauigkeit und visuelle Treue in verschiedenen Szenarien signifikant verbessert.
English
This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.