ChatPaper.aiChatPaper

RLinf-USER: Um Sistema Unificado e Extensível para Aprendizado de Políticas Online no Mundo Real em IA Corporificada

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

February 8, 2026
Autores: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI

Resumo

A aprendizagem de políticas online diretamente no mundo físico é uma direção promissora, mas desafiadora, para a inteligência incorporada. Ao contrário da simulação, os sistemas do mundo real não podem ser acelerados arbitrariamente, reiniciados de forma barata ou replicados massivamente, o que torna difícil a coleta escalável de dados, a implantação heterogénea e o treino eficaz de longo horizonte. Estes desafios sugerem que a aprendizagem de políticas no mundo real não é apenas uma questão algorítmica, mas fundamentalmente um problema de sistemas. Apresentamos o USER, um Sistema Unificado e extensível para a aprendizagem de políticas online no mundo real. O USER trata os robôs físicos como recursos de hardware de primeira classe, juntamente com GPUs, através de uma camada de abstração de hardware unificada, permitindo a descoberta, gestão e escalonamento automáticos de robôs heterogéneos. Para lidar com a comunicação cloud-edge, o USER introduz um plano de comunicação adaptativo com rede baseada em túneis, canais de dados distribuídos para localização de tráfego e sincronização de pesos consciente do streaming-multiprocessador para regular a sobrecarga do lado da GPU. Sobre esta infraestrutura, o USER organiza a aprendizagem como um quadro totalmente assíncrono com um buffer persistente e consciente da cache, permitindo experiências eficientes de longo horizonte com recuperação robusta de falhas e reutilização de dados históricos. Além disso, o USER fornece abstrações extensíveis para recompensas, algoritmos e políticas, suportando a aprendizagem por imitação ou por reforço online de CNN/MLP, políticas generativas e grandes modelos visão-linguagem-ação (VLA) dentro de um pipeline unificado. Resultados tanto em simulação como no mundo real mostram que o USER permite a coordenação de múltiplos robôs, manipuladores heterogéneos, colaboração edge-cloud com grandes modelos e treino assíncrono de longa duração, oferecendo uma base de sistemas unificada e extensível para a aprendizagem de políticas online no mundo real.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.
PDF562March 31, 2026