ChatPaper.aiChatPaper

RISE: Política Robótica de Automejora con Modelo de Composición del Mundo

RISE: Self-Improving Robot Policy with Compositional World Model

February 11, 2026
Autores: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li
cs.AI

Resumen

A pesar del escalado sostenido en la capacidad de los modelos y la adquisición de datos, los modelos Visión-Lenguaje-Acción (VLA) siguen siendo frágiles en tareas de manipulación dinámicas y con contacto rico, donde pequeñas desviaciones en la ejecución pueden acumularse y generar fallos. Si bien el aprendizaje por refuerzo (RL) ofrece un camino teórico hacia la robustez, el RL *on-policy* en el mundo físico está limitado por el riesgo para la seguridad, el coste del hardware y el restablecimiento del entorno. Para salvar esta brecha, presentamos RISE, un marco escalable de aprendizaje por refuerzo robótico mediante la imaginación. Su núcleo es un Modelo de Mundo Compositivo que (i) predice futuros multivía mediante un modelo de dinámica controlable, y (ii) evalúa los resultados imaginados con un modelo de valor de progreso, produciendo ventajas informativas para la mejora de la política. Este diseño compositivo permite que el estado y el valor se adapten mediante arquitecturas y objetivos distintos pero idóneos. Estos componentes se integran en un pipeline de auto-mejora en bucle cerrado que genera continuamente trayectorias imaginarias, estima ventajas y actualiza la política en el espacio imaginario sin una costosa interacción física. En tres tareas del mundo real de alta dificultad, RISE produce una mejora significativa sobre el estado del arte, con un aumento de rendimiento absoluto de más del +35% en la clasificación dinámica de ladrillos, +45% en el empaquetado de mochilas y +35% en el cierre de cajas, respectivamente.
English
Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.
PDF181February 14, 2026