WorldCompass: Aprendizaje por Refuerzo para Modelos del Mundo de Horizonte Largo
WorldCompass: Reinforcement Learning for Long-Horizon World Models
February 9, 2026
Autores: Zehan Wang, Tengfei Wang, Haiyu Zhang, Xuhui Zuo, Junta Wu, Haoyuan Wang, Wenqiang Sun, Zhenwei Wang, Chenjie Cao, Hengshuang Zhao, Chunchao Guo, Zhou Zhao
cs.AI
Resumen
Este trabajo presenta WorldCompass, un novedoso marco de trabajo de post-entrenamiento por Refuerzo del Aprendizaje (RL) para modelos del mundo basados en vídeo interactivo y de horizonte largo, permitiéndoles explorar el mundo de manera más precisa y consistente basándose en señales de interacción. Para "dirigir" eficazmente la exploración del modelo del mundo, introducimos tres innovaciones clave adaptadas al paradigma de generación autoregresiva de vídeo: 1) Estrategia de despliegue a nivel de *clip*: Generamos y evaluamos múltiples muestras en un *clip* objetivo único, lo que aumenta significativamente la eficiencia del despliegue y proporciona señales de recompensa de grano fino. 2) Funciones de recompensa complementarias: Diseñamos funciones de recompensa tanto para la precisión en el seguimiento de la interacción como para la calidad visual, las cuales proporcionan supervisión directa y suprimen eficazmente comportamientos de *reward-hacking*. 3) Algoritmo de RL eficiente: Empleamos la estrategia de ajuste fino *negative-aware* junto con varias optimizaciones de eficiencia para mejorar de forma eficiente y efectiva la capacidad del modelo. Las evaluaciones realizadas sobre el modelo del mundo de código abierto de vanguardia, WorldPlay, demuestran que WorldCompass mejora significativamente la precisión interactiva y la fidelidad visual en diversos escenarios.
English
This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.