Интерактивное постобучение моделей "Видео-Язык-Действие"
Interactive Post-Training for Vision-Language-Action Models
May 22, 2025
Авторы: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl
cs.AI
Аннотация
Мы представляем RIPT-VLA — простую и масштабируемую парадигму интерактивного пост-обучения на основе обучения с подкреплением, которая тонко настраивает предобученные модели Vision-Language-Action (VLA) с использованием только разреженных бинарных наград за успех. Существующие конвейеры обучения VLA в значительной степени зависят от оффлайн-данных экспертных демонстраций и контролируемого имитационного обучения, что ограничивает их способность адаптироваться к новым задачам и средам в условиях ограниченного объема данных. RIPT-VLA решает эту проблему, обеспечивая интерактивное пост-обучение с использованием стабильного алгоритма оптимизации политики, основанного на динамической выборке траекторий и оценке преимуществ методом "leave-one-out".
RIPT-VLA обладает следующими характеристиками. Во-первых, она применима к различным моделям VLA, что приводит к улучшению легковесной модели QueST на 21,2% и достижению беспрецедентного уровня успешности в 97,5% для модели OpenVLA-OFT с 7 миллиардами параметров. Во-вторых, она вычислительно эффективна и экономична в использовании данных: всего с одной демонстрацией RIPT-VLA позволяет неработоспособной модели SFT (4%) достичь успешности в 97% за 15 итераций. Кроме того, мы показываем, что политика, изученная RIPT-VLA, обобщается на различные задачи и сценарии и устойчива к контексту начального состояния. Эти результаты подчеркивают RIPT-VLA как практичную и эффективную парадигму для пост-обучения моделей VLA при минимальном контроле.
English
We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based
interactive post-training paradigm that fine-tunes pretrained
Vision-Language-Action (VLA) models using only sparse binary success rewards.
Existing VLA training pipelines rely heavily on offline expert demonstration
data and supervised imitation, limiting their ability to adapt to new tasks and
environments under low-data regimes. RIPT-VLA addresses this by enabling
interactive post-training with a stable policy optimization algorithm based on
dynamic rollout sampling and leave-one-out advantage estimation.
RIPT-VLA has the following characteristics. First, it applies to various VLA
models, resulting in an improvement on the lightweight QueST model by 21.2%,
and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it
is computationally efficient and data-efficient: with only one demonstration,
RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success
rate within 15 iterations. Furthermore, we demonstrate that the policy learned
by RIPT-VLA generalizes across different tasks and scenarios and is robust to
the initial state context. These results highlight RIPT-VLA as a practical and
effective paradigm for post-training VLA models through minimal supervision.Summary
AI-Generated Summary