RISE: Zelfverbeterend Robotbeleid met Compositioneel Wereldmodel

Samenvatting

Ondanks de voortdurende schaalvergroting van modelcapaciteit en data-acquisitie blijven Vision-Language-Action (VLA)-modellen broos in contactrijke en dynamische manipulatietaken, waarbij kleine uitvoeringsafwijkingen kunnen oplopen tot mislukkingen. Hoewel reinforcement learning (RL) een principieel pad naar robuustheid biedt, wordt on-policy RL in de fysieke wereld beperkt door veiligheidsrisico's, hardwarekosten en de noodzaak van omgevingsreset. Om deze kloof te overbruggen, presenteren we RISE, een schaalbaar framework voor robotreinforcement learning via verbeelding. De kern ervan is een Compositioneel Wereldmodel dat (i) de toekomst vanuit meerdere perspectieven voorspelt via een controleerbaar dynamisch model, en (ii) verbeeldde uitkomsten evalueert met een progressie-waardemodel, waardoor informatieve 'advantages' worden geproduceerd voor beleidsverbetering. Een dergelijk compositioneel ontwerp maakt het mogelijk om de toestand en waarde af te stemmen met de best geschikte, maar toch verschillende architecturen en doelstellingen. Deze componenten zijn geïntegreerd in een gesloten, zelfverbeterende pijplijn die continu denkbeeldige rollouts genereert, advantages schat en het beleud bijwerkt in de denkbeeldige ruimte, zonder kostbare fysieke interactie. Over drie uitdagende real-world taken heen behaalt RISE een significante verbetering ten opzichte van de state-of-the-art, met een absolute prestatieverbetering van meer dan +35% bij dynamisch sorteren van stenen, +45% voor het inpakken van een rugzak en +35% voor het sluiten van een doos.

English

Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.

RISE: Zelfverbeterend Robotbeleid met Compositioneel Wereldmodel

RISE: Self-Improving Robot Policy with Compositional World Model

Samenvatting

Support