WorldCompass: Aprendizado por Reforço para Modelos de Mundo de Longo Horizonte

Resumo

Este trabalho apresenta o WorldCompass, uma nova estrutura de pós-treinamento por Reforço de Aprendizagem (RL) para modelos de mundo baseados em vídeo interativo e de longo horizonte, permitindo que eles explorem o mundo de forma mais precisa e consistente com base em sinais de interação. Para "direcionar" eficazmente a exploração do modelo de mundo, introduzimos três inovações centrais adaptadas ao paradigma de geração de vídeo autoregressivo: 1) Estratégia de *Rollout* a Nível de Clipe: Geramos e avaliamos múltiplas amostras num único clipe-alvo, o que aumenta significativamente a eficiência do *rollout* e fornece sinais de recompensa de granularidade fina. 2) Funções de Recompensa Complementares: Projetamos funções de recompensa tanto para a precisão no seguimento da interação quanto para a qualidade visual, as quais fornecem supervisão direta e suprimem eficazmente comportamentos de *reward-hacking*. 3) Algoritmo de RL Eficiente: Empregamos a estratégia de ajuste fino (*fine-tuning*) consciente do negativo, associada a várias otimizações de eficiência, para melhorar de forma eficiente e eficaz a capacidade do modelo. Avaliações no modelo de mundo de código aberto estado da arte, WorldPlay, demonstram que o WorldCompass melhora significativamente a precisão da interação e a fidelidade visual em vários cenários.

English

This work presents WorldCompass, a novel Reinforcement Learning (RL) post-training framework for the long-horizon, interactive video-based world models, enabling them to explore the world more accurately and consistently based on interaction signals. To effectively "steer" the world model's exploration, we introduce three core innovations tailored to the autoregressive video generation paradigm: 1) Clip-level rollout Strategy: We generate and evaluate multiple samples at a single target clip, which significantly boosts rollout efficiency and provides fine-grained reward signals. 2) Complementary Reward Functions: We design reward functions for both interaction-following accuracy and visual quality, which provide direct supervision and effectively suppress reward-hacking behaviors. 3) Efficient RL Algorithm: We employ the negative-aware fine-tuning strategy coupled with various efficiency optimizations to efficiently and effectively enhance model capacity. Evaluations on the SoTA open-source world model, WorldPlay, demonstrate that WorldCompass significantly improves interaction accuracy and visual fidelity across various scenarios.

WorldCompass: Aprendizado por Reforço para Modelos de Mundo de Longo Horizonte

WorldCompass: Reinforcement Learning for Long-Horizon World Models

Resumo

Support