ChatPaper.aiChatPaper

Lernen während des Einsatzes: Reinforcement Learning im Flottenmaßstab für generalistische Roboterrichtlinien

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

May 1, 2026
Autoren: Yi Wang, Xinchen Li, Pengwei Xie, Pu Yang, Buqing Nie, Yunuo Cai, Qinglin Zhang, Chendi Qu, Jeffrey Wu, Jianheng Song, Xinlin Ren, Jingshun Huang, Mingjie Pan, Siyuan Feng, Zhi Chen, Jianlan Luo
cs.AI

Zusammenfassung

Generalisierte Robotik-Policies profitieren zunehmend von groß angelegtem Pre-Training, jedoch sind Offline-Daten allein nicht ausreichend für einen robusten Einsatz in der realen Welt. Eingesetzte Roboter sind mit Distributionsverschiebungen, Long-Tail-Fehlern, Aufgabenvarianzen und Möglichkeiten menschlicher Korrekturen konfrontiert, die durch feste Demonstrationsdatensätze nicht vollständig abgebildet werden können. Wir stellen Learning While Deploying (LWD) vor, ein Offline-zu-Online Reinforcement Learning-Framework im Maßstab einer Roboterflotte für das kontinuierliche Nachtraining generalisierter Vision-Language-Action (VLA)-Policies. Ausgehend von einer vortrainierten VLA-Policy schließt LWD die Schleife zwischen Einsatz, gemeinsamer physikalischer Erfahrung, Policy-Verbesserung und erneuter Bereitstellung, indem autonome Rollouts und menschliche Interventionen genutzt werden, die über eine Roboterflotte gesammelt werden. Um das Lernen aus heterogenen Flottendaten mit spärlicher Belohnung zu stabilisieren, kombiniert LWD Distributional Implicit Value Learning (DIVL) für eine robuste Werte-Schätzung mit Q-learning via Adjoint Matching (QAM) für die Policy-Extraktion in flussbasierten VLA-Aktionsgeneratoren. Wir validieren LWD an einer Flotte von 16 Zweiarm-Robotern in acht realen Manipulationsaufgaben, darunter semantisches Warennachfüllen in Regalen und langfristige Aufgaben mit einem Zeithorizont von 3–5 Minuten. Eine einzige generalisierte Policy verbessert sich mit zunehmender Flottenerfahrung und erreicht eine durchschnittliche Erfolgsrate von 95 %, wobei die größten Verbesserungen bei langfristigen Aufgaben erzielt werden.
English
Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. Deployed robots encounter distribution shifts, long-tail failures, task variations, and human correction opportunities that fixed demonstration datasets cannot fully capture. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual post-training of generalist Vision-Language-Action (VLA) policies. Starting from a pretrained VLA policy, LWD closes the loop between deployment, shared physical experience, policy improvement, and redeployment by using autonomous rollouts and human interventions collected across a robot fleet. To stabilize learning from heterogeneous, sparse-reward fleet data, LWD combines Distributional Implicit Value Learning (DIVL) for robust value estimation with Q-learning via Adjoint Matching (QAM) for policy extraction in flow-based VLA action generators. We validate LWD on a fleet of 16 dual-arm robots across eight real-world manipulation tasks, including semantic grocery restocking and 3--5 minute long-horizon tasks. A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks.
PDF102May 5, 2026