RLVR-World: 強化学習を用いた世界モデルのトレーニング
RLVR-World: Training World Models with Reinforcement Learning
May 20, 2025
著者: Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long
cs.AI
要旨
世界モデルは、行動に対する状態遷移を予測し、多様なモダリティにおいてますます開発が進められています。しかし、最尤推定(MLE)のような標準的な訓練目的は、世界モデルのタスク固有の目標、すなわち精度や知覚品質といった遷移予測メトリクスとしばしば不一致を生じます。本論文では、RLVR-Worldを紹介します。これは、検証可能な報酬を用いた強化学習(RLVR)を活用し、そのようなメトリクスに対して世界モデルを直接最適化する統一フレームワークです。世界モデリングをトークン化されたシーケンスの自己回帰予測として定式化する一方で、RLVR-Worldは、デコードされた予測のメトリクスを検証可能な報酬として評価します。テキストゲーム、ウェブナビゲーション、ロボット操作を含む複数のドメインにおいて、言語ベースおよびビデオベースの世界モデルにおいて大幅な性能向上を示します。我々の研究は、最近の推論言語モデルの進展を超えて、RLVRが生成モデルの有用性をより広範に高めるための有望な訓練後パラダイムを提供することを示唆しています。
English
World models predict state transitions in response to actions and are
increasingly developed across diverse modalities. However, standard training
objectives such as maximum likelihood estimation (MLE) often misalign with
task-specific goals of world models, i.e., transition prediction metrics like
accuracy or perceptual quality. In this paper, we present RLVR-World, a unified
framework that leverages reinforcement learning with verifiable rewards (RLVR)
to directly optimize world models for such metrics. Despite formulating world
modeling as autoregressive prediction of tokenized sequences, RLVR-World
evaluates metrics of decoded predictions as verifiable rewards. We demonstrate
substantial performance gains on both language- and video-based world models
across domains, including text games, web navigation, and robot manipulation.
Our work indicates that, beyond recent advances in reasoning language models,
RLVR offers a promising post-training paradigm for enhancing the utility of
generative models more broadly.Summary
AI-Generated Summary