ChatPaper.aiChatPaper

RISE: Selbstverbessernde Roboterpolitik mit kompositionellem Weltmodell

RISE: Self-Improving Robot Policy with Compositional World Model

February 11, 2026
papers.authors: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li
cs.AI

papers.abstract

Trotz der anhaltenden Vergrößerung der Modellkapazität und Datenerfassung bleiben Vision-Language-Action (VLA)-Modelle anfällig bei kontaktintensiven und dynamischen Manipulationsaufgaben, bei denen geringfügige Ausführungsabweichungen zu Fehlschlägen kumulieren können. Während Reinforcement Learning (RL) einen prinzipiellen Weg zu Robustheit bietet, ist On-Policy-RL in der physischen Welt durch Sicherheitsrisiken, Hardwarekosten und Umweltresets eingeschränkt. Um diese Lücke zu schließen, stellen wir RISE vor, einen skalierbaren Rahmen für robotisches Reinforcement Learning durch Imagination. Sein Kernstück ist ein Compositional World Model, das (i) multivariable Zukunftszustände über ein steuerbares Dynamikmodell vorhersagt und (ii) imaginierte Ergebnisse mit einem Fortschrittswertmodell bewertet, wodurch informative Advantages für die Verbesserung der Policy erzeugt werden. Ein solches kompositionelles Design ermöglicht es, Zustand und Wert durch jeweils am besten geeignete, jedoch unterschiedliche Architekturen und Zielsetzungen anzupassen. Diese Komponenten sind in eine geschlossene, sich selbst verbessernde Pipeline integriert, die kontinuierlich imaginäre Rollouts erzeugt, Advantages schätzt und die Policy im Imaginärraum aktualisiert, ohne kostspielige physische Interaktion. In drei anspruchsvollen realen Aufgaben erzielt RISE eine signifikante Verbesserung gegenüber dem Stand der Technik, mit einer absoluten Leistungssteigerung von mehr als +35 % bei der dynamischen Ziegelsteinsortierung, +45 % beim Rucksackpacken und +35 % beim Boxverschluss.
English
Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.
PDF181February 14, 2026