Иерархическое взвешивание преимущества для тонкой настройки VLA с помощью онлайн-обучения с подкреплением на основе разреженных результатов эпизодов

Аннотация

При дообучении предварительно обученных VLA-политик с помощью онлайн-обучения с подкреплением каждый эпизод развертывания даёт лишь один бинарный исход (успех или неудача), тогда как обновление актора требует супервизии на каждом переходе. Существующие подходы обычно сводят этот разреженный исход к одному скалярному сигналу вознаграждения или преимущества, что объединяет различные формы обратной связи на уровне переходов и обеспечивает ограниченное руководство, как только базовый успех задачи становится достижимым. Во-первых, один скалярный сигнал объединяет две цели — жизнеспособность и эффективность; как только базовый успех достигнут, бинарная метка не даёт градиента для различения эффективных завершений и медленных. Во-вторых, развертывания в реальном мире смешивают автономные сегменты и сегменты с вмешательством; наивное присвоение исходов эпизода этим границам приводит к неправильному назначению кредита. Для решения этих проблем мы предлагаем иерархическую клонирование поведения с взвешиванием по преимуществу (Hierarchical Advantage-Weighted Behavior Cloning, HABC), которое обучает отдельные головки критика для этих двух целей на различных подмножествах данных и объединяет их выходы с адаптивным к состоянию балансом. Адаптивный к состоянию затвор \( g_t \) объединяет их однокомпонентные преимущества, отдавая приоритет жизнеспособности, когда успех неопределён, и переключаясь на эффективность только при высокой жизнеспособности, и преобразует результат в веса для каждого перехода в функции потерь актора. Назначение кредита с учётом вмешательств дополнительно ограничивает метки исхода только теми сегментами, которые были выполнены текущей политикой, предотвращая утечку супервизии через границы вмешательств. В экспериментах на реальных роботах на трёх задачах двуручной манипуляции, требующих контакта, HABC повышает успех с базовых показателей обучения с учителем (SFT) в 36%, 44% и 12% до 92%, 88% и 38% соответственно.

English

When pretrained VLA policies are fine-tuned through online RL, each rollout episode produces only a single binary outcome (success or failure), yet the actor update requires per-transition supervision. Existing approaches commonly reduce this sparse outcome to a single scalar reward or advantage signal, which conflates distinct forms of transition-level feedback and provides limited guidance once basic task success becomes achievable. First, a single scalar signal conflates the two objectives of viability and efficiency; once basic success is achieved, the binary label provides no gradient to distinguish efficient completions from slow ones. Second, real-world rollouts mix autonomous and intervention segments; naively assigning episode outcomes across these boundaries introduces incorrect credit assignment. To address these issues, we propose Hierarchical Advantage-Weighted Behavior Cloning (HABC), which trains separate critic heads for these two objectives on different data subsets and combines their outputs with a state-adaptive balance. A state-adaptive gate g_t merges their one-step advantages, prioritizing viability when success is uncertain and shifting to efficiency only when viability is high, and converts the result into per-transition weights on the actor loss. Intervention-aware credit assignment further restricts outcome labels to segments executed by the current policy, preventing supervision from leaking across intervention boundaries. In real-robot experiments on three contact-rich bimanual tasks, HABC raises success from supervised fine-tuning (SFT) baselines of 36%, 44%, and 12% to 92%, 88%, and 38%.