Обучение в процессе развертывания: масштабируемое обучение с подкреплением для обобщенных политик роботов

Аннотация

Политики универсальных роботов все больше выигрывают от крупномасштабного предварительного обучения, однако одних только оффлайн-данных недостаточно для надежного развертывания в реальном мире. Развернутые роботы сталкиваются со сдвигами распределения, редкими сбоями, вариативностью задач и возможностями корректировки со стороны человека, которые фиксированные наборы демонстрационных данных не могут полностью охватить. Мы представляем «Обучение во время развертывания» (Learning While Deploying, LWD) — масштабируемый на флот роботов фреймворк оффлайн-онлайн обучения с подкреплением для непрерывного пост-обучения универсальных Vision-Language-Action (VLA) политик. Начиная с предварительно обученной VLA-политики, LWD замыкает цикл между развертыванием, коллективным физическим опытом, улучшением политики и повторным развертыванием, используя автономные прогоны и вмешательства человека, собранные по всему флоту роботов. Для стабилизации обучения на основе разнородных данных флота с разреженными вознаграждениями, LWD сочетает Distributional Implicit Value Learning (DIVL) для робастной оценки ценности с Q-learning via Adjoint Matching (QAM) для извлечения политики в VLA-генераторах действий на основе потоков. Мы проверяем LWD на флоте из 16 двухруких роботов в восьми задачах манипулирования в реальном мире, включая семантическое пополнение запасов в магазине и долгосрочные задачи продолжительностью 3–5 минут. Единая универсальная политика улучшается по мере накопления опыта флотом, достигая среднего показателя успеха 95%, с наибольшим приростом на долгосрочных задачах.

English

Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. Deployed robots encounter distribution shifts, long-tail failures, task variations, and human correction opportunities that fixed demonstration datasets cannot fully capture. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual post-training of generalist Vision-Language-Action (VLA) policies. Starting from a pretrained VLA policy, LWD closes the loop between deployment, shared physical experience, policy improvement, and redeployment by using autonomous rollouts and human interventions collected across a robot fleet. To stabilize learning from heterogeneous, sparse-reward fleet data, LWD combines Distributional Implicit Value Learning (DIVL) for robust value estimation with Q-learning via Adjoint Matching (QAM) for policy extraction in flow-based VLA action generators. We validate LWD on a fleet of 16 dual-arm robots across eight real-world manipulation tasks, including semantic grocery restocking and 3--5 minute long-horizon tasks. A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks.

Обучение в процессе развертывания: масштабируемое обучение с подкреплением для обобщенных политик роботов

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Аннотация

Support