Ponderación de Ventaja Jerárquica para el Ajuste Fino de RL en Línea de VLAs a partir de Resultados de Episodios Dispersos

Resumen

Cuando las políticas VLA preentrenadas se ajustan mediante RL en línea, cada episodio de despliegue produce un único resultado binario (éxito o fracaso), mientras que la actualización del actor requiere supervisión por transición. Los enfoques existentes suelen reducir este resultado disperso a una única señal escalar de recompensa o ventaja, lo que fusiona formas distintas de retroalimentación a nivel de transición y proporciona una guía limitada una vez que se logra alcanzar el éxito básico en la tarea. En primer lugar, una única señal escalar fusiona los dos objetivos de viabilidad y eficiencia; una vez logrado el éxito básico, la etiqueta binaria no proporciona gradiente para distinguir entre ejecuciones eficientes y lentas. En segundo lugar, los despliegues en el mundo real combinan segmentos autónomos y de intervención; asignar ingenuamente los resultados del episodio a través de estos límites introduce una asignación incorrecta de crédito. Para abordar estos problemas, proponemos el Clonado de Comportamiento Ponderado por Ventaja Jerárquica (HABC), que entrena cabezas críticas separadas para estos dos objetivos en diferentes subconjuntos de datos y combina sus salidas con un equilibrio adaptativo al estado. Una puerta adaptativa al estado g_t fusiona sus ventajas de un paso, priorizando la viabilidad cuando el éxito es incierto y cambiando a eficiencia solo cuando la viabilidad es alta, y convierte el resultado en pesos por transición para la pérdida del actor. La asignación de crédito consciente de la intervención restringe aún más las etiquetas de resultado a los segmentos ejecutados por la política actual, evitando que la supervisión se filtre a través de los límites de intervención. En experimentos con robots reales en tres tareas bimanuales con contacto, HABC eleva el éxito desde las líneas base de ajuste fino supervisado (SFT) del 36%, 44% y 12% al 92%, 88% y 38%.

English

When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approaches commonly reduce this sparse outcome to a single scalar reward or advantage signal, which conflates distinct forms of transition-level feedback and provides limited guidance once basic task success becomes achievable. First, a single scalar signal conflates the two objectives of viability and efficiency; once basic success is achieved, the binary label provides no gradient to distinguish efficient completions from slow ones. Second, real-world rollouts mix autonomous and intervention segments; naively assigning episode outcomes across these boundaries introduces incorrect credit assignment. To address these issues, we propose Hierarchical Advantage-Weighted Behavior Cloning (HABC), which trains separate critic heads for these two objectives on different data subsets and combines their outputs with a state-adaptive balance. A state-adaptive gate g_t merges their one-step advantages, prioritizing viability when success is uncertain and shifting to efficiency only when viability is high, and converts the result into per-transition weights on the actor loss. Intervention-aware credit assignment further restricts outcome labels to segments executed by the current policy, preventing supervision from leaking across intervention boundaries. In real-robot experiments on three contact-rich bimanual tasks, HABC raises success from supervised fine-tuning (SFT) baselines of 36%, 44%, and 12% to 92%, 88%, and 38%.