RLinf-USER: Um Sistema Unificado e Extensível para Aprendizado de Políticas Online no Mundo Real em IA Corporificada

Resumo

A aprendizagem de políticas online diretamente no mundo físico é uma direção promissora, mas desafiadora, para a inteligência incorporada. Ao contrário da simulação, os sistemas do mundo real não podem ser acelerados arbitrariamente, reiniciados de forma barata ou replicados massivamente, o que torna difícil a coleta escalável de dados, a implantação heterogénea e o treino eficaz de longo horizonte. Estes desafios sugerem que a aprendizagem de políticas no mundo real não é apenas uma questão algorítmica, mas fundamentalmente um problema de sistemas. Apresentamos o USER, um Sistema Unificado e extensível para a aprendizagem de políticas online no mundo real. O USER trata os robôs físicos como recursos de hardware de primeira classe, juntamente com GPUs, através de uma camada de abstração de hardware unificada, permitindo a descoberta, gestão e escalonamento automáticos de robôs heterogéneos. Para lidar com a comunicação cloud-edge, o USER introduz um plano de comunicação adaptativo com rede baseada em túneis, canais de dados distribuídos para localização de tráfego e sincronização de pesos consciente do streaming-multiprocessador para regular a sobrecarga do lado da GPU. Sobre esta infraestrutura, o USER organiza a aprendizagem como um quadro totalmente assíncrono com um buffer persistente e consciente da cache, permitindo experiências eficientes de longo horizonte com recuperação robusta de falhas e reutilização de dados históricos. Além disso, o USER fornece abstrações extensíveis para recompensas, algoritmos e políticas, suportando a aprendizagem por imitação ou por reforço online de CNN/MLP, políticas generativas e grandes modelos visão-linguagem-ação (VLA) dentro de um pipeline unificado. Resultados tanto em simulação como no mundo real mostram que o USER permite a coordenação de múltiplos robôs, manipuladores heterogéneos, colaboração edge-cloud com grandes modelos e treino assíncrono de longa duração, oferecendo uma base de sistemas unificada e extensível para a aprendizagem de políticas online no mundo real.

English

Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.