Pondération hiérarchique des avantages pour le réglage fin en ligne par apprentissage par renforcement des VLA à partir de résultats d’épisodes rares

Résumé

Lorsque des politiques VLA pré-entraînées sont affinées par RL en ligne, chaque épisode de déploiement ne produit qu'un seul résultat binaire (succès ou échec), alors que la mise à jour de l'acteur nécessite une supervision par transition. Les approches existantes réduisent généralement ce résultat parcimonieux à un unique signal scalaire de récompense ou d'avantage, ce qui confond des formes distinctes de rétroaction au niveau des transitions et fournit un guidage limité une fois que le succès de la tâche de base devient atteignable. Premièrement, un signal scalaire unique confond les deux objectifs que sont la viabilité et l'efficacité ; une fois le succès de base atteint, l'étiquette binaire n'offre aucun gradient pour distinguer les accomplissements efficaces des accomplissements lents. Deuxièmement, les déploiements réels mélangent des segments autonomes et des segments d'intervention ; attribuer naïvement les résultats des épisodes à travers ces limites introduit une attribution de crédit incorrecte. Pour résoudre ces problèmes, nous proposons le Clonage Comportemental Hiérarchique Pondéré par l'Avantage (HABC), qui entraîne des têtes critiques distinctes pour ces deux objectifs sur différents sous-ensembles de données et combine leurs sorties avec un équilibre adaptatif à l'état. Une porte adaptative à l'état g_t fusionne leurs avantages en un pas, priorisant la viabilité lorsque le succès est incertain et ne basculant vers l'efficacité que lorsque la viabilité est élevée, et convertit le résultat en poids par transition sur la perte de l'acteur. L'attribution de crédit consciente des interventions restreint en outre les étiquettes de résultat aux segments exécutés par la politique courante, empêchant toute fuite de supervision à travers les limites d'intervention. Dans des expériences sur robot réel portant sur trois tâches bimanuelles à contact riche, HABC fait passer le taux de succès des bases d'ajustement supervisé (SFT) de 36 %, 44 % et 12 % à 92 %, 88 % et 38 %.

English

When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approaches commonly reduce this sparse outcome to a single scalar reward or advantage signal, which conflates distinct forms of transition-level feedback and provides limited guidance once basic task success becomes achievable. First, a single scalar signal conflates the two objectives of viability and efficiency; once basic success is achieved, the binary label provides no gradient to distinguish efficient completions from slow ones. Second, real-world rollouts mix autonomous and intervention segments; naively assigning episode outcomes across these boundaries introduces incorrect credit assignment. To address these issues, we propose Hierarchical Advantage-Weighted Behavior Cloning (HABC), which trains separate critic heads for these two objectives on different data subsets and combines their outputs with a state-adaptive balance. A state-adaptive gate g_t merges their one-step advantages, prioritizing viability when success is uncertain and shifting to efficiency only when viability is high, and converts the result into per-transition weights on the actor loss. Intervention-aware credit assignment further restricts outcome labels to segments executed by the current policy, preventing supervision from leaking across intervention boundaries. In real-robot experiments on three contact-rich bimanual tasks, HABC raises success from supervised fine-tuning (SFT) baselines of 36%, 44%, and 12% to 92%, 88%, and 38%.