RISE: Politica Robotica Auto-Migliorante con Modello del Mondo Composizionale

Abstract

Nonostante il continuo aumento della capacità dei modelli e dell'acquisizione di dati, i modelli Visione-Linguaggio-Azione (VLA) rimangono fragili nei compiti di manipolazione ricchi di contatto e dinamici, dove piccole deviazioni nell'esecuzione possono accumularsi portando a fallimenti. Sebbene l'apprendimento per rinforzo (RL) offra un percorso metodologico verso la robustezza, il RL on-policy nel mondo fisico è limitato dai rischi per la sicurezza, dai costi hardware e dalla necessità di resettare l'ambiente. Per colmare questa lacuna, presentiamo RISE, un framework scalabile per l'apprendimento per rinforzo robotico tramite immaginazione. Il suo nucleo è un Modello di Mondo Composizionale che (i) predice scenari futuri multi-prospettiva attraverso un modello di dinamica controllabile, e (ii) valuta gli esiti immaginati con un modello di valore del progresso, producendo vantaggi informativi per il miglioramento della policy. Questo design composizionale permette di adattare lo stato e il valore con architetture e obiettivi distinti ma più adatti. Questi componenti sono integrati in una pipeline di auto-miglioramento a ciclo chiuso che genera continuamente rollout immaginari, stima i vantaggi e aggiorna la policy nello spazio immaginario senza costose interazioni fisiche. In tre impegnativi compiti del mondo reale, RISE produce un miglioramento significativo rispetto allo stato dell'arte, con un aumento assoluto delle prestazioni di oltre il +35% nell'ordinamento dinamico di mattoncini, +45% per il riempimento di uno zaino e +35% per la chiusura di scatole, rispettivamente.

English

Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.

RISE: Politica Robotica Auto-Migliorante con Modello del Mondo Composizionale

RISE: Self-Improving Robot Policy with Compositional World Model

Abstract

Support