ChatPaper.aiChatPaper

RLinf-USER: Унифицированная и расширяемая система для обучения политикам в реальном времени в воплощённом ИИ

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

February 8, 2026
Авторы: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
cs.AI

Аннотация

Прямое обучение политик в физическом мире представляет собой перспективное, но сложное направление для воплощенного интеллекта. В отличие от симуляции, реальные системы не могут быть произвольно ускорены, дешево сброшены или массово реплицированы, что затрудняет масштабируемый сбор данных, гетерогенное развертывание и эффективное обучение на длительных горизонтах. Эти проблемы свидетельствуют о том, что обучение политик в реальном мире — это не только алгоритмическая, но и фундаментально системная задача. Мы представляем USER — унифицированную и расширяемую систему для онлайн-обучения политик в реальном мире. USER рассматривает физических роботов как аппаратные ресурсы первого класса наряду с GPU через унифицированный уровень аппаратных абстракций, обеспечивая автоматическое обнаружение, управление и планирование задач для гетерогенных роботов. Для решения проблемы облачно-периферийной связи USER вводит адаптивную коммуникационную плоскость с туннелированием сети, распределенными каналами данных для локализации трафика и синхронизацией весов с учетом потоковых мультипроцессоров для регулирования нагрузки на стороне GPU. Поверх этой инфраструктуры USER организует обучение как полностью асинхронный фреймворк с постоянным кэш-ориентированным буфером, обеспечивая эффективные долгосрочные эксперименты с надежным восстановлением после сбоев и повторным использованием исторических данных. Кроме того, USER предоставляет расширяемые абстракции для функций вознаграждения, алгоритмов и политик, поддерживая онлайн-имитационное или обучение с подкреплением для CNN/MLP, генеративных политик и крупных визуально-языково-действенных моделей в рамках единого конвейера. Результаты как в симуляции, так и в реальном мире показывают, что USER обеспечивает координацию множества роботов, работу гетерогенных манипуляторов, облачно-периферийную коллаборацию с большими моделями и длительное асинхронное обучение, предлагая унифицированный и расширяемый системный фундамент для онлайн-обучения политик в реальном мире.
English
Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.
PDF471February 11, 2026