Leren tijdens Inzet: Reinforcement Learning op Vlootschaal voor Algemene Robotbeleidsregels

Samenvatting

Algemene robotbeleidsmodellen hebben steeds meer baat bij grootschalige voorafgaande training, maar offline data alleen is onvoldoende voor robuuste inzet in de echte wereld. Ingezette robots krijgen te maken met distributieverschuivingen, zeldzame fouten, taakvariatie en mogelijkheden voor menselijke correcties die vaste demonstratiedatasets niet volledig kunnen vastleggen. Wij presenteren Learning While Deploying (LWD), een offline-naar-online reinforcement learning-framework op vlootschaal voor continue na-training van algemene Vision-Language-Action (VLA)-beleidsmodellen. Uitgaande van een voorgetraind VLA-beleid sluit LWD de lus tussen inzet, gedeelde fysieke ervaring, beleidsverbetering en herinzet door gebruik te maken van autonome rollouts en menselijke interventies die zijn verzameld over een robotvloot. Om het leren van heterogene, schaars beloonde vlootdata te stabiliseren, combineert LWD Distributional Implicit Value Learning (DIVL) voor robuuste waardeschatting met Q-learning via Adjoint Matching (QAM) voor beleidsextractie in op stromen gebaseerde VLA-actiegeneratoren. Wij valideren LWD op een vloot van 16 dubbelarmige robots bij acht real-world manipulatietaken, waaronder semantisch hervullen van boodschappen en langetermijntaken van 3–5 minuten. Een enkel algemeen beleidsmodel verbetert naarmate de vlootervaring toeneemt, met een gemiddeld slagingspercentage van 95% en de grootste vooruitgang bij langetermijntaken.

English

Generalist robot policies increasingly benefit from large-scale pretraining, but offline data alone is insufficient for robust real-world deployment. Deployed robots encounter distribution shifts, long-tail failures, task variations, and human correction opportunities that fixed demonstration datasets cannot fully capture. We present Learning While Deploying (LWD), a fleet-scale offline-to-online reinforcement learning framework for continual post-training of generalist Vision-Language-Action (VLA) policies. Starting from a pretrained VLA policy, LWD closes the loop between deployment, shared physical experience, policy improvement, and redeployment by using autonomous rollouts and human interventions collected across a robot fleet. To stabilize learning from heterogeneous, sparse-reward fleet data, LWD combines Distributional Implicit Value Learning (DIVL) for robust value estimation with Q-learning via Adjoint Matching (QAM) for policy extraction in flow-based VLA action generators. We validate LWD on a fleet of 16 dual-arm robots across eight real-world manipulation tasks, including semantic grocery restocking and 3--5 minute long-horizon tasks. A single generalist policy improves as fleet experience accumulates, reaching an average success rate of 95%, with the largest gains on long-horizon tasks.

Leren tijdens Inzet: Reinforcement Learning op Vlootschaal voor Algemene Robotbeleidsregels

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Samenvatting

Support