RISE: 구성적 세계 모델을 통한 자기 개선 로봇 정책
RISE: Self-Improving Robot Policy with Compositional World Model
February 11, 2026
저자: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li
cs.AI
초록
모델 용량과 데이터 수집의 지속적인 확장에도 불구하고, 비전-언어-행동(Vision-Language-Action, VLA) 모델들은 접촉이 빈번하고 동적인 조작 작업에서 취약성을 보입니다. 미세한 실행 오차가 누적되어 실패로 이어질 수 있는 환경에서 말이죠. 강화 학습(Reinforcement Learning, RL)은 견고성 향상의 원칙적 방안을 제공하지만, 물리적 현실에서의 온-정책(On-Policy) RL은 안전 위험, 하드웨어 비용, 환경 재설정의 제약을 받습니다. 이러한 격차를 해소하기 위해 우리는 상상(Imagination)을 통한 확장 가능한 로봇 강화 학습 프레임워크인 RISE를 제안합니다. 그 핵심은 (i) 제어 가능한 역학 모델을 통해 다중 뷰(Multi-View) 미래를 예측하고, (ii) 상상된 결과를 진행 가치 모델(Progress Value Model)로 평가하여 정책 향상에 유익한 어드밴티지(Advantage)를 생성하는 구성적 세계 모델(Compositional World Model)입니다. 이러한 구성적 설계는 상태(State)와 가치(Value)가 각각 가장 적합한 서로 다른 아키텍처와 목적 함수를 통해 최적화될 수 있게 합니다. 이러한 구성 요소들은 고비용의 물리적 상호작용 없이 상상 공간에서 가상 롤아웃(Rollout)을 지속적으로 생성하고, 어드밴티지를 추정하며, 정책을 업데이트하는 폐쇄형 자기 향상(Self-Improving) 파이프라인에 통합됩니다. 세 가지 까다로운 실제 작업에서 RISE는 기존 최고 기술 대비 뚜렷한 성능 향상을 보였는데, 각각 동적 벽돌 분류에서 +35% 이상, 배낭 챙기기에서 +45%, 상자 닫기에서 +35%의 절대적 성능 증가를 기록했습니다.
English
Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.