WorldCompass: Обучение с подкреплением для долгосрочных моделей мира
WorldCompass: Reinforcement Learning for Long-Horizon World Models
February 9, 2026
Авторы: Zehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao
cs.AI
Аннотация
В данной работе представлен WorldCompass — новый фреймворк пост-обучения с подкреплением (RL) для долгосрочных интерактивных видео-ориентированных мировых моделей, позволяющий им исследовать мир более точно и последовательно на основе интерактивных сигналов. Для эффективного «направления» исследования мировых моделей мы предлагаем три ключевых нововведения, адаптированных к парадигме авторегрессионного генерации видео: 1) **Стратегия rollout на уровне клипов**: мы генерируем и оцениваем несколько сэмплов для одного целевого клипа, что значительно повышает эффективность rollout и обеспечивает детальные сигналы вознаграждения. 2) **Комплементарные функции вознаграждения**: мы разрабатываем функции вознаграждения как для точности следования взаимодействию, так и для визуального качества, что обеспечивает прямое управление и эффективно подавляет поведение, связанное с взломом вознаграждения. 3) **Эффективный RL-алгоритм**: мы используем стратегию тонкой настройки с учетом негативных примеров в сочетании с различными оптимизациями эффективности для повышения capacity модели. Оценки на передовой открытой мировой модели WorldPlay демонстрируют, что WorldCompass значительно улучшает точность взаимодействия и визуальную достоверность в различных сценариях.
English
This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.