ChatPaper.aiChatPaper

RISE : Politique robotique auto-améliorante avec modèle du monde compositionnel

RISE: Self-Improving Robot Policy with Compositional World Model

February 11, 2026
papers.authors: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li
cs.AI

papers.abstract

Malgré l'augmentation soutenue de la capacité des modèles et de l'acquisition de données, les modèles Vision-Langage-Action (VLA) restent fragiles dans les tâches de manipulation dynamiques et riches en contacts, où de légères déviations d'exécution peuvent s'accumuler et entraîner des échecs. Si l'apprentissage par renforcement (RL) offre une voie théorique vers la robustesse, son application en politique active dans le monde physique est limitée par les risques pour la sécurité, le coût matériel et la réinitialisation de l'environnement. Pour combler cette lacune, nous présentons RISE, un cadre évolutif d'apprentissage par renforcement robotique via l'imagination. Son cœur est un Modèle Compositionnel du Monde qui (i) prédit un futur multi-vues via un modèle de dynamique contrôlable, et (ii) évalue les résultats imaginés avec un modèle de valeur de progrès, produisant des avantages informatifs pour l'amélioration de la politique. Cette conception compositionnelle permet d'adapter l'état et la valeur avec des architectures et objectifs distincts mais les mieux adaptés. Ces composants sont intégrés dans un pipeline en boucle fermée d'auto-amélioration qui génère continuellement des déroulements imaginaires, estime les avantages et met à jour la politique dans l'espace imaginaire, sans interaction physique coûteuse. Sur trois tâches réelles difficiles, RISE apporte une amélioration significative par rapport à l'état de l'art, avec une augmentation absolue des performances de plus de +35 % pour le tri dynamique de briques, +45 % pour le rangement du sac à dos et +35 % pour la fermeture de boîte, respectivement.
English
Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.
PDF181February 14, 2026