ChatPaper.aiChatPaper

RLinf-USER: Een Verenigd en Uitbreidbaar Systeem voor Real-World Online Beleidsleren in Belichaamde AI

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

February 8, 2026
Auteurs: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI

Samenvatting

Online beleidsleren rechtstreeks in de fysieke wereld is een veelbelovende maar uitdagende richting voor belichaamde intelligentie. In tegenstelling tot simulatie kunnen real-world systemen niet willekeurig worden versneld, goedkoop worden gereset of massaal worden gerepliceerd, wat schaalbare gegevensverzameling, heterogene implementatie en effectieve training op lange termijn bemoeilijkt. Deze uitdagingen suggereren dat real-world beleidsleren niet alleen een algoritmisch probleem is, maar fundamenteel een systeemprobleem. Wij presenteren USER, een Unified en eXtensible SystEem voor Real-world online beleidsleren. USER behandelt fysieke robots als eersteklas hardwarebronnen naast GPU's via een uniforme hardware-abstractielaag, waardoor automatische detectie, beheer en planning van heterogene robots mogelijk wordt. Om cloud-edge communicatie aan te pakken, introduceert USER een adaptief communicatievlak met tunneling-gebaseerde netwerken, gedistribueerde datakanalen voor verkeerslokalisatie en streaming-multiprocessor-aware gewichtssynchronisatie om GPU-gerelateerde overhead te reguleren. Bovenop deze infrastructuur organiseert USER het leren als een volledig asynchroon framework met een persistent, cache-aware buffer, waardoor efficiënte experimenten op lange termijn mogelijk zijn met robuuste crash-herstel en hergebruik van historische gegevens. Bovendien biedt USER uitbreidbare abstracties voor beloningen, algoritmen en beleid, die online imitatie- of reinforcement learning van CNN/MLP, generatieve beleiden en grote vision-language-action (VLA) modellen ondersteunt binnen een uniforme pijplijn. Resultaten in zowel simulatie als de echte wereld tonen aan dat USER multi-robotcoördinatie, heterogene manipulatoren, edge-cloud samenwerking met grote modellen en langlopende asynchrone training mogelijk maakt, en zo een uniforme en uitbreidbare systeemfundering biedt voor real-world online beleidsleren.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.
PDF532February 24, 2026