Addestramento Interattivo Post-Formazione per Modelli Visione-Linguaggio-Azione

Abstract

Introduciamo RIPT-VLA, un paradigma semplice e scalabile di post-addestramento interattivo basato sul reinforcement learning che ottimizza modelli Vision-Language-Action (VLA) pre-addestrati utilizzando solo ricompense binarie sparse di successo. Le pipeline di addestramento VLA esistenti si basano fortemente su dati di dimostrazione esperti offline e su imitazione supervisionata, limitando la loro capacità di adattarsi a nuovi compiti e ambienti in regimi di dati scarsi. RIPT-VLA affronta questo problema abilitando un post-addestramento interattivo con un algoritmo di ottimizzazione della policy stabile basato su campionamento dinamico dei rollout e stima del vantaggio leave-one-out. RIPT-VLA presenta le seguenti caratteristiche. In primo luogo, si applica a vari modelli VLA, ottenendo un miglioramento del 21,2% sul modello leggero QueST e portando il modello OpenVLA-OFT da 7B a un tasso di successo senza precedenti del 97,5%. In secondo luogo, è computazionalmente ed energeticamente efficiente: con una sola dimostrazione, RIPT-VLA consente a un modello SFT inizialmente non funzionante (4%) di raggiungere un tasso di successo del 97% in sole 15 iterazioni. Inoltre, dimostriamo che la policy appresa da RIPT-VLA si generalizza su diversi compiti e scenari ed è robusta al contesto dello stato iniziale. Questi risultati evidenziano RIPT-VLA come un paradigma pratico ed efficace per il post-addestramento di modelli VLA attraverso una supervisione minima.

English

We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based interactive post-training paradigm that fine-tunes pretrained Vision-Language-Action (VLA) models using only sparse binary success rewards. Existing VLA training pipelines rely heavily on offline expert demonstration data and supervised imitation, limiting their ability to adapt to new tasks and environments under low-data regimes. RIPT-VLA addresses this by enabling interactive post-training with a stable policy optimization algorithm based on dynamic rollout sampling and leave-one-out advantage estimation. RIPT-VLA has the following characteristics. First, it applies to various VLA models, resulting in an improvement on the lightweight QueST model by 21.2%, and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it is computationally efficient and data-efficient: with only one demonstration, RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success rate within 15 iterations. Furthermore, we demonstrate that the policy learned by RIPT-VLA generalizes across different tasks and scenarios and is robust to the initial state context. These results highlight RIPT-VLA as a practical and effective paradigm for post-training VLA models through minimal supervision.

Addestramento Interattivo Post-Formazione per Modelli Visione-Linguaggio-Azione

Interactive Post-Training for Vision-Language-Action Models

Abstract

Support