Ponderação Hierárquica de Vantagem para Ajuste Fino de RL Online de VLAs a partir de Resultados de Episódios Esparsos

Resumo

Quando políticas VLA pré-treinadas são ajustadas por meio de RL online, cada episódio de rollout produz apenas um único resultado binário (sucesso ou falha), mas a atualização do ator requer supervisão por transição. Abordagens existentes comumente reduzem esse resultado esparso a um único sinal de recompensa escalar ou vantagem, o que confunde formas distintas de feedback no nível da transição e oferece orientação limitada uma vez que o sucesso básico da tarefa se torna alcançável. Primeiro, um único sinal escalar confunde os dois objetivos de viabilidade e eficiência; uma vez que o sucesso básico é alcançado, o rótulo binário não fornece gradiente para distinguir conclusões eficientes das lentas. Segundo, rollouts no mundo real misturam segmentos autônomos e de intervenção; atribuir ingenuamente resultados de episódio através dessas fronteiras introduz atribuição de crédito incorreta. Para resolver esses problemas, propomos o *Hierarchical Advantage-Weighted Behavior Cloning* (HABC), que treina cabeças críticas separadas para esses dois objetivos em diferentes subconjuntos de dados e combina suas saídas com um balanço adaptativo ao estado. Uma porta adaptativa ao estado *g_t* mescla suas vantagens de um passo, priorizando a viabilidade quando o sucesso é incerto e mudando para eficiência apenas quando a viabilidade é alta, e converte o resultado em pesos por transição na perda do ator. A atribuição de crédito consciente de intervenção restringe ainda mais os rótulos de resultado a segmentos executados pela política atual, impedindo que a supervisão vaze através dos limites de intervenção. Em experimentos com robôs reais em três tarefas bimanuais de contato intenso, o HABC eleva o sucesso das linhas de base de *fine-tuning* supervisionado (SFT) de 36%, 44% e 12% para 92%, 88% e 38%.

English

When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approaches commonly reduce this sparse outcome to a single scalar reward or advantage signal, which conflates distinct forms of transition-level feedback and provides limited guidance once basic task success becomes achievable. First, a single scalar signal conflates the two objectives of viability and efficiency; once basic success is achieved, the binary label provides no gradient to distinguish efficient completions from slow ones. Second, real-world rollouts mix autonomous and intervention segments; naively assigning episode outcomes across these boundaries introduces incorrect credit assignment. To address these issues, we propose Hierarchical Advantage-Weighted Behavior Cloning (HABC), which trains separate critic heads for these two objectives on different data subsets and combines their outputs with a state-adaptive balance. A state-adaptive gate g_t merges their one-step advantages, prioritizing viability when success is uncertain and shifting to efficiency only when viability is high, and converts the result into per-transition weights on the actor loss. Intervention-aware credit assignment further restricts outcome labels to segments executed by the current policy, preventing supervision from leaking across intervention boundaries. In real-robot experiments on three contact-rich bimanual tasks, HABC raises success from supervised fine-tuning (SFT) baselines of 36%, 44%, and 12% to 92%, 88%, and 38%.