ChatPaper.aiChatPaper

RLinf-USER: Un Sistema Unificato ed Estensibile per l'Apprendimento di Politiche Online nel Mondo Reale per l'IA Incorporata

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

February 8, 2026
Autori: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI

Abstract

L'apprendimento di politiche online direttamente nel mondo fisico rappresenta una direzione promettente ma impegnativa per l'intelligenza embodied. A differenza della simulazione, i sistemi del mondo reale non possono essere accelerati arbitrariamente, resettati a basso costo o replicati massivamente, il che rende difficile la raccolta scalabile di dati, la distribuzione eterogenea e l'addestramento efficace a lungo termine. Queste sfide suggeriscono che l'apprendimento di politiche nel mondo reale non è solo una questione algoritmica, ma fondamentalmente un problema di sistemi. Presentiamo USER, un Sistema Unificato ed estensibile per l'apprendimento di politiche online nel mondo reale. USER tratta i robot fisici come risorse hardware di prima classe insieme alle GPU attraverso un livello di astrazione hardware unificato, consentendo l'individuazione automatica, la gestione e la pianificazione di robot eterogenei. Per affrontare la comunicazione cloud-edge, USER introduce un piano di comunicazione adattivo con rete basata su tunneling, canali dati distribuiti per la localizzazione del traffico e una sincronizzazione dei pesi ottimizzata per streaming multiprocessore per regolare il sovraccarico lato GPU. Su questa infrastruttura, USER organizza l'apprendimento come un framework completamente asincrono con un buffer persistente e cache-aware, abilitando esperimenti efficienti a lungo termine con robusto ripristino da crash e riutilizzo dei dati storici. Inoltre, USER fornisce astrazioni estensibili per ricompense, algoritmi e politiche, supportando l'apprendimento per imitazione online o per rinforzo di modelli CNN/MLP, politiche generative e grandi modelli visione-linguaggio-azione (VLA) all'interno di una pipeline unificata. I risultati sia in simulazione che nel mondo reale mostrano che USER abilita il coordinamento multi-robot, manipolatori eterogenei, la collaborazione edge-cloud con grandi modelli e l'addestramento asincrono di lunga durata, offrendo una base sistemistica unificata ed estensibile per l'apprendimento di politiche online nel mondo reale.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.
PDF562March 31, 2026