RISE:合成世界モデルによる自己改善ロボット政策
RISE: Self-Improving Robot Policy with Compositional World Model
February 11, 2026
著者: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li
cs.AI
要旨
モデル容量とデータ収集の持続的な拡大にもかかわらず、Vision-Language-Action(VLA)モデルは、接触が頻繁かつ動的な操作タスクにおいて依然として脆弱である。わずかな実行偏差が失敗につながる可能性がある。強化学習(RL)はロバスト性への原理的なアプローチを提供するが、物理世界における方策オン型RLは安全性リスク、ハードウェアコスト、環境リセットの制約を受ける。このギャップを埋めるため、我々は想像力によるロボット強化学習のスケーラブルなフレームワークであるRISEを提案する。その中核は、構成可能な世界モデルであり、(i)制御可能なダイナミクスモデルによるマルチビュー未来予測と、(ii)進捗価値モデルによる想像された結果の評価を行い、方策改善のための情報量の多いアドバンテージを生成する。このような構成可能な設計により、状態と価値は、最も適したが異なるアーキテクチャと目的に合わせて調整できる。これらのコンポーネントは、コストの高い物理的相互作用なしに、想像上のロールアウトを継続的に生成し、アドバンテージを推定し、想像空間で方策を更新する、閉ループの自己改善パイプラインに統合される。3つの困難な実世界タスクにおいて、RISEは従来技術を大幅に上回る改善をもたらし、動的なレンガ仕分けでは絶対性能が35%以上、バックパックの梱包では45%以上、箱の閉鎖では35%以上、それぞれ向上した。
English
Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.