WorldCompass: Apprendimento per Rinforzo per Modelli del Mondo a Lungo Orizzonte

Abstract

Questo lavoro presenta WorldCompass, un innovativo framework di post-addestramento basato sul Reinforcement Learning (RL) per modelli del mondo interattivi e basati su video di lungo orizzonte, consentendo loro di esplorare il mondo in modo più accurato e coerente sulla base di segnali d'interazione. Per "guidare" efficacemente l'esplorazione del modello del mondo, introduciamo tre innovazioni fondamentali mirate al paradigma di generazione video autoregressiva: 1) Strategia di Rollout a Livello di Clip: generiamo e valutiamo campioni multipli per una singola clip target, incrementando significativamente l'efficienza del rollout e fornendo segnali di ricompensa granulari. 2) Funzioni di Ricompensa Complementari: progettiamo funzioni di ricompensa sia per l'accuratezza nel seguire le interazioni che per la qualità visiva, le quali forniscono supervisione diretta e sopprimono efficacemente comportamenti di reward-hacking. 3) Algoritmo RL Efficiente: impieghiamo una strategia di fine-tuning negativa-aware abbinata a varie ottimizzazioni dell'efficienza per potenziare in modo efficiente ed efficace la capacità del modello. Le valutazioni condotte sul modello del mondo open-source allo stato dell'arte, WorldPlay, dimostrano che WorldCompass migliora significativamente l'accuratezza interattiva e la fedeltà visiva in vari scenari.

English

This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.

WorldCompass: Apprendimento per Rinforzo per Modelli del Mondo a Lungo Orizzonte

WorldCompass: Reinforcement Learning for Long-Horizon World Models

Abstract

Support