ChatPaper.aiChatPaper

RLinf-USER: Un Sistema Unificado y Extensible para el Aprendizaje de Políticas Online en el Mundo Real para la IA Corporizada

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

February 8, 2026
Autores: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI

Resumen

El aprendizaje de políticas en línea directamente en el mundo físico es una dirección prometedora pero desafiante para la inteligencia corporeizada. A diferencia de la simulación, los sistemas del mundo real no pueden acelerarse arbitrariamente, reiniciarse de forma económica ni replicarse masivamente, lo que dificulta la recolección escalable de datos, el despliegue heterogéneo y el entrenamiento efectivo a largo plazo. Estos desafíos sugieren que el aprendizaje de políticas en el mundo real no es solo un problema algorítmico, sino fundamentalmente un problema de sistemas. Presentamos USER, un Sistema Unificado y extensible para el aprendizaje de políticas en línea en el mundo real. USER trata a los robots físicos como recursos de hardware de primera clase junto con las GPU a través de una capa de abstracción de hardware unificada, permitiendo el descubrimiento automático, la gestión y la programación de robots heterogéneos. Para abordar la comunicación nube-borde, USER introduce un plano de comunicación adaptativo con redes basadas en túneles, canales de datos distribuidos para la localización del tráfico y sincronización de pesos consciente de los multiprocesadores de flujo (streaming) para regular la sobrecarga en el lado de la GPU. Sobre esta infraestructura, USER organiza el aprendizaje como un marco completamente asíncrono con un búfer persistente y consciente de la caché, permitiendo experimentos eficientes a largo plazo con una recuperación robusta de fallos y reutilización de datos históricos. Además, USER proporciona abstracciones extensibles para recompensas, algoritmos y políticas, apoyando el aprendizaje por imitación o por refuerzo en línea de CNN/MLP, políticas generativas y grandes modelos visión-lenguaje-acción (VLA) dentro de una canalización unificada. Los resultados tanto en simulación como en el mundo real muestran que USER permite la coordinación de múltiples robots, manipuladores heterogéneos, la colaboración borde-nube con modelos grandes y el entrenamiento asíncrono de larga duración, ofreciendo una base de sistemas unificada y extensible para el aprendizaje de políticas en línea en el mundo real.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.
PDF471February 11, 2026