RISE: Самосовершенствующаяся стратегия робота с композиционной моделью мира
RISE: Self-Improving Robot Policy with Compositional World Model
February 11, 2026
Авторы: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li
cs.AI
Аннотация
Несмотря на постоянное увеличение емкости моделей и объемов собираемых данных, модели «зрение-язык-действие» (Vision-Language-Action, VLA) остаются неустойчивыми в задачах манипулирования, требующих постоянного контакта и динамического взаимодействия, где даже незначительные отклонения в исполнении могут накапливаться и приводить к сбоям. Хотя обучение с подкреплением (RL) предлагает принципиальный путь к обеспечению надежности, применение RL с он-политикой в физическом мире ограничено рисками для безопасности, стоимостью оборудования и необходимостью сброса среды. Для преодоления этого разрыва мы представляем RISE — масштабируемую структуру роботизированного обучения с подкреплением через воображение. Ее основой является Композиционная модель мира, которая (i) предсказывает многопредставленное будущее с помощью управляемой модели динамики и (ii) оценивает смоделированные исходы с помощью модели ценности прогресса, формируя информативные преимущества для улучшения политики. Такой композиционный подход позволяет адаптировать архитектуру и цели для состояний и ценности, используя наиболее подходящие, но различные архитектуры. Эти компоненты интегрированы в замкнутый контур самосовершенствования, который непрерывно генерирует смоделированные развертки, оценивает преимущества и обновляет политику в воображаемом пространстве без затратного физического взаимодействия. В трех сложных реальных задачах RISE демонстрирует значительное улучшение по сравнению с предыдущими решениями: абсолютное повышение производительности более чем на +35% в динамической сортировке кирпичей, на +45% в упаковке рюкзака и на +35% в закрытии коробки соответственно.
English
Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.