Addestramento Interattivo Post-Formazione per Modelli Visione-Linguaggio-Azione
Interactive Post-Training for Vision-Language-Action Models
May 22, 2025
Autori: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl
cs.AI
Abstract
Introduciamo RIPT-VLA, un paradigma semplice e scalabile di post-addestramento interattivo basato sul reinforcement learning che ottimizza modelli Vision-Language-Action (VLA) pre-addestrati utilizzando solo ricompense binarie sparse di successo. Le pipeline di addestramento VLA esistenti si basano fortemente su dati di dimostrazione esperti offline e su imitazione supervisionata, limitando la loro capacità di adattarsi a nuovi compiti e ambienti in regimi di dati scarsi. RIPT-VLA affronta questo problema abilitando un post-addestramento interattivo con un algoritmo di ottimizzazione della policy stabile basato su campionamento dinamico dei rollout e stima del vantaggio leave-one-out.
RIPT-VLA presenta le seguenti caratteristiche. In primo luogo, si applica a vari modelli VLA, ottenendo un miglioramento del 21,2% sul modello leggero QueST e portando il modello OpenVLA-OFT da 7B a un tasso di successo senza precedenti del 97,5%. In secondo luogo, è computazionalmente ed energeticamente efficiente: con una sola dimostrazione, RIPT-VLA consente a un modello SFT inizialmente non funzionante (4%) di raggiungere un tasso di successo del 97% in sole 15 iterazioni. Inoltre, dimostriamo che la policy appresa da RIPT-VLA si generalizza su diversi compiti e scenari ed è robusta al contesto dello stato iniziale. Questi risultati evidenziano RIPT-VLA come un paradigma pratico ed efficace per il post-addestramento di modelli VLA attraverso una supervisione minima.
English
We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based
interactive post-training paradigm that fine-tunes pretrained
Vision-Language-Action (VLA) models using only sparse binary success rewards.
Existing VLA training pipelines rely heavily on offline expert demonstration
data and supervised imitation, limiting their ability to adapt to new tasks and
environments under low-data regimes. RIPT-VLA addresses this by enabling
interactive post-training with a stable policy optimization algorithm based on
dynamic rollout sampling and leave-one-out advantage estimation.
RIPT-VLA has the following characteristics. First, it applies to various VLA
models, resulting in an improvement on the lightweight QueST model by 21.2%,
and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it
is computationally efficient and data-efficient: with only one demonstration,
RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success
rate within 15 iterations. Furthermore, we demonstrate that the policy learned
by RIPT-VLA generalizes across different tasks and scenarios and is robust to
the initial state context. These results highlight RIPT-VLA as a practical and
effective paradigm for post-training VLA models through minimal supervision.