Hierarchische Vorteilsgewichtung für das Online-RL-Feintuning von VLAs aus spärlichen Episodenergebnissen

Zusammenfassung

Wenn vortrainierte VLA-Policies mittels Online-RL feinjustiert werden, erzeugt jede Rollout-Episode nur ein einziges binäres Ergebnis (Erfolg oder Misserfolg), während die Aktualisierung des Akteurs eine Überwachung pro Übergang erfordert. Bestehende Ansätze reduzieren dieses spärliche Ergebnis üblicherweise auf ein einzelnes skalares Belohnungs- oder Advantage-Signal, was unterschiedliche Formen von Übergangs-Feedback vermischt und nur begrenzte Orientierung bietet, sobald grundlegender Aufgabenerfolg erreichbar wird. Erstens vermischt ein einzelnes skalares Signal die beiden Ziele Lebensfähigkeit und Effizienz; sobald der grundlegende Erfolg erreicht ist, liefert die binäre Kennzeichnung keinen Gradienten, um effiziente Abschlüsse von langsamen zu unterscheiden. Zweitens mischen reale Rollouts autonome und Interventionssegmente; eine naive Zuweisung von Episodenergebnissen über diese Grenzen hinweg führt zu einer falschen Bewertungszuweisung. Um diese Probleme zu adressieren, schlagen wir Hierarchical Advantage-Weighted Behavior Cloning (HABC) vor, das separate Kritik-Köpfe für diese beiden Ziele auf unterschiedlichen Daten-Untermengen trainiert und deren Ausgaben mit einer zustandsadaptiven Balance kombiniert. Ein zustandsadaptives Gate \(g_t\) führt deren Ein-Schritt-Vorteile zusammen, priorisiert Lebensfähigkeit, wenn der Erfolg unsicher ist, und schwenkt nur bei hoher Lebensfähigkeit auf Effizienz um; das Ergebnis wird in Gewichte pro Übergang für den Actor-Verlust umgewandelt. Eine interventionsbewusste Bewertungszuweisung schränkt die Ergebnislabels ferner auf Segmente ein, die von der aktuellen Policy ausgeführt wurden, und verhindert so, dass Überwachung über Interventionsgrenzen hinweg durchsickert. In realen Roboter-Experimenten an drei kontaktreichen bimanuellen Aufgaben steigert HABC die Erfolgsrate von überwachten Feintuning-Baselines (SFT) von 36 %, 44 % und 12 % auf 92 %, 88 % bzw. 38 %.

English

When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approaches commonly reduce this sparse outcome to a single scalar reward or advantage signal, which conflates distinct forms of transition-level feedback and provides limited guidance once basic task success becomes achievable. First, a single scalar signal conflates the two objectives of viability and efficiency; once basic success is achieved, the binary label provides no gradient to distinguish efficient completions from slow ones. Second, real-world rollouts mix autonomous and intervention segments; naively assigning episode outcomes across these boundaries introduces incorrect credit assignment. To address these issues, we propose Hierarchical Advantage-Weighted Behavior Cloning (HABC), which trains separate critic heads for these two objectives on different data subsets and combines their outputs with a state-adaptive balance. A state-adaptive gate g_t merges their one-step advantages, prioritizing viability when success is uncertain and shifting to efficiency only when viability is high, and converts the result into per-transition weights on the actor loss. Intervention-aware credit assignment further restricts outcome labels to segments executed by the current policy, preventing supervision from leaking across intervention boundaries. In real-robot experiments on three contact-rich bimanual tasks, HABC raises success from supervised fine-tuning (SFT) baselines of 36%, 44%, and 12% to 92%, 88%, and 38%.