RISE: Política Robótica de Autoaprimoramento com Modelo de Mundo Composicional

Resumo

Apesar da escalada sustentada na capacidade dos modelos e na aquisição de dados, os modelos Visão-Linguagem-Ação (VLA) permanecem frágeis em tarefas de manipulação dinâmicas e ricas em contato, onde pequenos desvios de execução podem se acumular e resultar em falhas. Embora o aprendizado por reforço (RL) ofereça um caminho fundamentado para a robustez, o RL *on-policy* no mundo físico é limitado pelo risco de segurança, custo de hardware e necessidade de reconfiguração do ambiente. Para preencher esta lacuna, apresentamos o RISE, uma estrutura escalável de aprendizado por reforço robótico via imaginação. Em seu núcleo está um Modelo de Mundo Composicional que (i) prevê o futuro multi-visão por meio de um modelo de dinâmica controlável e (ii) avalia resultados imaginados com um modelo de valor de progresso, produzindo vantagens informativas para o aprimoramento da política. Esse projeto composicional permite que o estado e o valor sejam adaptados por arquiteturas e objetivos distintos, porém mais adequados. Esses componentes são integrados em um pipeline de autoatualização em circuito fechado que gera continuamente rollouts imaginários, estima vantagens e atualiza a política no espaço imaginário sem interação física custosa. Em três tarefas desafiadoras do mundo real, o RISE produz uma melhoria significativa em relação ao estado da arte, com um aumento de desempenho absoluto superior a +35% na classificação dinâmica de tijolos, +45% no empacotamento de mochila e +35% no fechamento de caixa, respectivamente.

English

Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.

RISE: Política Robótica de Autoaprimoramento com Modelo de Mundo Composicional

RISE: Self-Improving Robot Policy with Compositional World Model

Resumo

Support