ChatPaper.aiChatPaper

RLinf-USER: Ein einheitliches und erweiterbares System für praktisches Online-Policy-Lernen in verkörpertener KI

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

February 8, 2026
papers.authors: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI

papers.abstract

Online Policy Learning direkt in der physischen Welt ist eine vielversprechende, aber herausfordernde Richtung für verkörperte Intelligenz. Im Gegensatz zur Simulation können Echtzeitsysteme nicht beliebig beschleunigt, kostengünstig zurückgesetzt oder massenhaft repliziert werden, was skalierbare Datenerfassung, heterogene Bereitstellung und effektives Training über lange Zeithorizonte erschwert. Diese Herausforderungen zeigen, dass Echtzeit-Policy-Learning nicht nur ein algorithmisches Problem ist, sondern grundlegend ein Systemproblem. Wir präsentieren USER, ein Unified and extensible SystEm for Real-world online policy learning. USER behandelt physische Roboter als First-Class-Hardwareressourcen neben GPUs durch eine einheitliche Hardwareabstraktionsschicht, die automatische Erkennung, Verwaltung und Planung heterogener Roboter ermöglicht. Zur Bewältigung der Cloud-Edge-Kommunikation führt USER eine adaptive Kommunikationsebene mit tunnelingbasierter Vernetzung, verteilten Datenkanälen zur Traffic-Lokalisierung und streamingmultiprozessororientierter Gewichtssynchronisation ein, um GPU-seitigen Overhead zu regulieren. Auf dieser Infrastruktur aufbauend organisiert USER das Lernen als vollständig asynchrones Framework mit einem persistenten, cachebewussten Puffer, das effiziente Langzeitexperimente mit robustem Absturz-Wiederherstellungsmechanismus und Wiederverwendung historischer Daten ermöglicht. Zudem bietet USER erweiterbare Abstraktionen für Belohnungen, Algorithmen und Policies, die Online-Imitation oder Reinforcement Learning von CNN/MLP, generativen Policies und großen Vision-Language-Action (VLA)-Modellen innerhalb einer einheitlichen Pipeline unterstützen. Ergebnisse sowohl in der Simulation als auch in der realen Welt zeigen, dass USER Multi-Roboter-Koordination, heterogene Manipulatoren, Edge-Cloud-Kollaboration mit großen Modellen und langlaufendes asynchrones Training ermöglicht und damit eine einheitliche und erweiterbare Systemgrundlage für Echtzeit-Online-Policy-Learning bietet.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.
PDF471February 11, 2026