RLinf-USER: 실세계 온라인 정책 학습을 위한 통합 및 확장 가능한 시스템
RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI
February 8, 2026
저자: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI
초록
물리 세계에서 직접 온라인 정책 학습을 수행하는 것은 구현형 인공지능 분야에서 유망하지만 도전적인 방향입니다. 시뮬레이션과 달리 실제 세계의 시스템은 임의로 가속하거나, 저렴하게 재설정하거나, 대규모로 복제할 수 없어 확장 가능한 데이터 수집, 이기종 배포, 장기적 효과적인 학습이 어렵습니다. 이러한 도전 과제들은 실제 세계 정책 학습이 단순히 알고리즘 문제가 아닌 근본적인 시스템 문제임을 시사합니다. 본 논문에서는 실제 세계 온라인 정책 학습을 위한 통합 및 확장 가능한 시스템인 USER를 제안합니다. USER는 통합 하드웨어 추상화 계층을 통해 물리적 로봇을 GPU와 동등한 1급 하드웨어 자원으로 취급하여 이기종 로봇의 자동 탐지, 관리 및 스케줄링을 가능하게 합니다. 클라우드-에지 통신 문제를 해결하기 위해 USER는 터널링 기반 네트워킹, 트래픽 지역화를 위한 분산 데이터 채널, GPU 측 오버헤드를 조절하는 스트리밍-멀티프로세서 인식 가중치 동기화를 포함하는 적응형 통신 평면을 도입합니다. 이러한 인프라 위에서 USER는 지속적이고 캐시 인식 버퍼를 갖춘 완전 비동기 프레임워크로 학습을 구성하여 견고한 충돌 복구 및 역사적 데이터 재사용이 가능한 효율적인 장기 실험을 지원합니다. 또한 USER는 보상, 알고리즘, 정책에 대한 확장 가능한 추상화를 제공하여 통합 파이프라인 내에서 CNN/MLP, 생성 정책, 대형 시각-언어-행동(VLA) 모델의 온라인 모방 학습 또는 강화 학습을 지원합니다. 시뮬레이션과 실제 세계에서의 실험 결과는 USER가 다중 로봇 협조, 이기종 매니퓰레이터, 대형 모델을 활용한 에지-클라우드 협업, 장기 비동기 학습을 가능하게 하여 실제 세계 온라인 정책 학습을 위한 통합적이고 확장 가능한 시스템 기반을 제공함을 보여줍니다.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.