WorldCompass: Reinforcement Learning voor Wereldmodellen met Lange Horizons

Samenvatting

Dit werk presenteert WorldCompass, een nieuw Reinforcement Learning (RL) post-training raamwerk voor langetermijn, interactieve op video gebaseerde wereldmodellen, waarmee ze de wereld nauwkeuriger en consistenter kunnen verkennen op basis van interactiesignalen. Om de verkenning van het wereldmodel effectief te "sturen", introduceren we drie kerninnovaties toegesneden op het autoregressieve videogeneratieparadigma: 1) Clip-level rollout Strategie: We genereren en evalueren meerdere samples voor een enkele doelclip, wat de rollout-efficiëntie aanzienlijk verhoogt en fijnmazige beloningssignalen verschaft. 2) Complementaire Beloningsfuncties: We ontwerpen beloningsfuncties voor zowel interactievolgingsnauwkeurigheid als visuele kwaliteit, die direct toezicht bieden en beloningsmanipulatie effectief onderdrukken. 3) Efficiënt RL-algoritme: We gebruiken de negatief-bewuste fine-tuning strategie in combinatie met diverse efficiëntie-optimalisaties om modelcapaciteit efficiënt en effectief te verbeteren. Evaluaties op het state-of-the-art open-source wereldmodel, WorldPlay, tonen aan dat WorldCompass de interactienauwkeurigheid en visuele kwaliteit aanzienlijk verbetert in diverse scenario's.

English

This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.

WorldCompass: Reinforcement Learning voor Wereldmodellen met Lange Horizons

WorldCompass: Reinforcement Learning for Long-Horizon World Models

Samenvatting

Support