Hiërarchische Voordeelweging voor Online RL Fijnafstemming van VLA's van Schaarse Episode-uitkomsten

Samenvatting

Wanneer voorgetrainde VLA-beleidsregels worden verfijnd via online bekrachtigingsleren, levert elke afspeelepisode slechts één binaire uitkomst (succes of mislukking), terwijl de actor-update per overgang supervisie vereist. Bestaande benaderingen reduceren deze schaarse uitkomst doorgaans tot een enkel scalair belonings- of voordeelsignaal, wat verschillende vormen van feedback op overgangsniveau samenvoegt en beperkte sturing biedt zodra basistaaksucces haalbaar wordt. Ten eerste voegt een enkel scalair signaal de twee doelstellingen van levensvatbaarheid en efficiëntie samen; zodra basissucces is bereikt, biedt het binaire label geen gradiënt om efficiënte voltooiingen te onderscheiden van trage. Ten tweede mengen real-world afspeelsessies autonome en interventiesegmenten; het naïef toewijzen van episode-uitkomsten over deze grenzen heen leidt tot incorrecte krediettoewijzing. Om deze problemen aan te pakken stellen wij Hiërarchisch Voordeel-Gewogen Gedragsclonen (HABC) voor, dat afzonderlijke criticus-koppen traint voor deze twee doelstellingen op verschillende gegevenssubsets en hun uitkomsten combineert met een toestandsadaptieve balans. Een toestandsadaptieve poort g_t combineert hun éénstapsvoordelen, waarbij levensvatbaarheid prioriteit krijgt wanneer succes onzeker is en alleen naar efficiëntie wordt overgeschakeld wanneer levensvatbaarheid hoog is, en converteert het resultaat in per-overgang gewichten voor het actorverlies. Interventiebewuste krediettoewijzing beperkt verder de uitkomstlabels tot segmenten die door het huidige beleid worden uitgevoerd, waardoor supervisie niet over interventiegrenzen heen lekt. In real-robot experimenten op drie contactrijke bimanuele taken verhoogt HABC het succes van supervisie-verfijnde (SFT) basislijnen van 36%, 44% en 12% naar 92%, 88% en 38%.

English

When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approaches commonly reduce this sparse outcome to a single scalar reward or advantage signal, which conflates distinct forms of transition-level feedback and provides limited guidance once basic task success becomes achievable. First, a single scalar signal conflates the two objectives of viability and efficiency; once basic success is achieved, the binary label provides no gradient to distinguish efficient completions from slow ones. Second, real-world rollouts mix autonomous and intervention segments; naively assigning episode outcomes across these boundaries introduces incorrect credit assignment. To address these issues, we propose Hierarchical Advantage-Weighted Behavior Cloning (HABC), which trains separate critic heads for these two objectives on different data subsets and combines their outputs with a state-adaptive balance. A state-adaptive gate g_t merges their one-step advantages, prioritizing viability when success is uncertain and shifting to efficiency only when viability is high, and converts the result into per-transition weights on the actor loss. Intervention-aware credit assignment further restricts outcome labels to segments executed by the current policy, preventing supervision from leaking across intervention boundaries. In real-robot experiments on three contact-rich bimanual tasks, HABC raises success from supervised fine-tuning (SFT) baselines of 36%, 44%, and 12% to 92%, 88%, and 38%.