RLVR-World: 강화 학습을 활용한 세계 모델 훈련
RLVR-World: Training World Models with Reinforcement Learning
May 20, 2025
저자: Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long
cs.AI
초록
월드 모델은 행동에 대한 상태 전이를 예측하며, 다양한 모달리티에서 점점 더 개발되고 있다. 그러나 최대 가능도 추정(MLE)과 같은 표준 훈련 목표는 종종 월드 모델의 작업별 목표, 즉 정확도나 지각적 품질과 같은 전이 예측 지표와 일치하지 않는다. 본 논문에서는 이러한 지표를 직접 최적화하기 위해 검증 가능한 보상을 활용한 강화 학습(RLVR)을 도입한 통합 프레임워크인 RLVR-World를 제시한다. RLVR-World는 월드 모델링을 토큰화된 시퀀스의 자기회귀적 예측으로 공식화하지만, 디코딩된 예측의 지표를 검증 가능한 보상으로 평가한다. 우리는 텍스트 게임, 웹 탐색, 로봇 조작 등 다양한 도메인에서 언어 및 비디오 기반 월드 모델에 대한 상당한 성능 향상을 입증한다. 우리의 연구는 최근 추론 언어 모델의 발전을 넘어, RLVR이 생성 모델의 유용성을 더 넓게 향상시키는 유망한 사후 훈련 패러다임을 제공함을 보여준다.
English
World models predict state transitions in response to actions and are
increasingly developed across diverse modalities. However, standard training
objectives such as maximum likelihood estimation (MLE) often misalign with
task-specific goals of world models, i.e., transition prediction metrics like
accuracy or perceptual quality. In this paper, we present RLVR-World, a unified
framework that leverages reinforcement learning with verifiable rewards (RLVR)
to directly optimize world models for such metrics. Despite formulating world
modeling as autoregressive prediction of tokenized sequences, RLVR-World
evaluates metrics of decoded predictions as verifiable rewards. We demonstrate
substantial performance gains on both language- and video-based world models
across domains, including text games, web navigation, and robot manipulation.
Our work indicates that, beyond recent advances in reasoning language models,
RLVR offers a promising post-training paradigm for enhancing the utility of
generative models more broadly.Summary
AI-Generated Summary