RLinf-USER : Un système unifié et extensible pour l'apprentissage de politiques en ligne dans le monde réel pour l'IA incarnée
RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI
February 8, 2026
papers.authors: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI
papers.abstract
L'apprentissage de politiques en ligne directement dans le monde physique est une direction prometteuse mais difficile pour l'intelligence incarnée. Contrairement à la simulation, les systèmes réels ne peuvent pas être accélérés arbitrairement, réinitialisés à faible coût ou répliqués massivement, ce qui rend difficile la collecte évolutive de données, le déploiement hétérogène et l'entraînement efficace sur le long terme. Ces défis suggèrent que l'apprentissage de politiques en monde réel n'est pas seulement un problème algorithmique, mais fondamentalement un problème de systèmes. Nous présentons USER, un Système Unifié et eXtensible pour l'Apprentissage de politiques en ligne dans le monde Réel. USER traite les robots physiques comme des ressources matérielles de premier ordre aux côtés des GPU grâce à une couche d'abstraction matérielle unifiée, permettant la découverte, la gestion et l'ordonnancement automatiques de robots hétérogènes. Pour adresser la communication cloud-edge, USER introduit un plan de communication adaptatif avec un réseau basé sur le tunneling, des canaux de données distribués pour la localisation du trafic et une synchronisation des poids tenant compte des multiprocesseurs de flux pour réguler la charge côté GPU. Sur cette infrastructure, USER organise l'apprentissage comme un cadre entièrement asynchrone avec un tampon persistant et optimisé pour le cache, permettant des expériences à long terme efficaces avec une récupération robuste après incident et la réutilisation des données historiques. De plus, USER fournit des abstractions extensibles pour les récompenses, les algorithmes et les politiques, prenant en charge l'apprentissage par imitation ou par renforcement en ligne de modèles CNN/MLP, de politiques génératives et de grands modèles vision-langage-action (VLA) dans un pipeline unifié. Les résultats en simulation et dans le monde réel montrent qu'USER permet la coordination multi-robots, l'utilisation de manipulateurs hétérogènes, la collaboration edge-cloud avec de grands modèles et l'entraînement asynchrone de longue durée, offrant une fondation système unifiée et extensible pour l'apprentissage de politiques en ligne dans le monde réel.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.