RLinf-USER: 実世界における具身AIのためのオンラインポリシー学習の統合的かつ拡張可能なシステム
RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI
February 8, 2026
著者: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI
要旨
物理世界における直接的なオンラインポリシー学習は、具現化知能にとって有望でありながら困難な方向性である。シミュレーションとは異なり、実世界システムは任意に高速化できず、安価にリセットしたり大規模に複製したりすることもできない。これにより、スケーラブルなデータ収集、異種システムの展開、長期的な効果的な学習が困難となる。これらの課題は、実世界のポリシー学習が単なるアルゴリズム上の問題ではなく、本質的にシステム設計上の問題であることを示唆している。本論文では、実世界オンラインポリシー学習のための統一拡張可能システム「USER」を提案する。USERは物理ロボットをGPUと同様の第一級ハードウェアリソースとして扱う統一ハードウェア抽象化層を提供し、異種ロボットの自動発見、管理、スケジューリングを実現する。クラウドエッジ通信に対処するため、USERはトンネリングベースのネットワーク技術、トラフィック局所化のための分散データチャネル、GPU側オーバーヘッドを調整するストリーミングマルチプロセッサ対応の重み同期を備えた適応通信プレーンを導入する。この基盤の上に、USERは永続的でキャッシュを意識したバッファを備えた完全非同期フレームワークとして学習を組織化し、堅牢なクラッシュ回復と履歴データの再利用を可能にしながら、効率的な長期的実験を実現する。さらにUSERは報酬、アルゴリズム、ポリシーの拡張可能な抽象化を提供し、CNN/MLP、生成ポリシー、大規模視覚言語行動モデルといった多様な手法のオンライン模倣学習や強化学習を統一パイプライン内でサポートする。シミュレーションと実世界の両方での実験結果は、USERが複数ロボット協調、異種マニピュレータ、大規模モデルを用いたエッジクラウド連携、長時間非同期学習を可能にし、実世界オンラインポリシー学習のための統一的なシステム基盤を提供することを示している。
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.