Post-formation interactive pour les modèles vision-langage-action

Résumé

Nous présentons RIPT-VLA, un paradigme simple et évolutif d'apprentissage par renforcement interactif post-entraînement qui affine des modèles Vision-Langue-Action (VLA) pré-entraînés en utilisant uniquement des récompenses binaires de succès éparses. Les pipelines d'entraînement existants pour les modèles VLA reposent fortement sur des données de démonstration expertes hors ligne et sur l'imitation supervisée, limitant ainsi leur capacité à s'adapter à de nouvelles tâches et environnements dans des régimes à faible quantité de données. RIPT-VLA résout ce problème en permettant un post-entraînement interactif avec un algorithme d'optimisation de politique stable basé sur un échantillonnage dynamique de déploiement et une estimation d'avantage par exclusion mutuelle. RIPT-VLA possède les caractéristiques suivantes. Premièrement, il s'applique à divers modèles VLA, améliorant le modèle léger QueST de 21,2 % et portant le modèle OpenVLA-OFT de 7B à un taux de succès inédit de 97,5 %. Deuxièmement, il est efficace en termes de calcul et de données : avec une seule démonstration, RIPT-VLA permet à un modèle SFT initialement inopérant (4 %) d'atteindre un taux de succès de 97 % en seulement 15 itérations. De plus, nous démontrons que la politique apprise par RIPT-VLA se généralise à différentes tâches et scénarios et est robuste au contexte de l'état initial. Ces résultats mettent en évidence RIPT-VLA comme un paradigme pratique et efficace pour le post-entraînement des modèles VLA avec une supervision minimale.

English

We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based interactive post-training paradigm that fine-tunes pretrained Vision-Language-Action (VLA) models using only sparse binary success rewards. Existing VLA training pipelines rely heavily on offline expert demonstration data and supervised imitation, limiting their ability to adapt to new tasks and environments under low-data regimes. RIPT-VLA addresses this by enabling interactive post-training with a stable policy optimization algorithm based on dynamic rollout sampling and leave-one-out advantage estimation. RIPT-VLA has the following characteristics. First, it applies to various VLA models, resulting in an improvement on the lightweight QueST model by 21.2%, and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it is computationally efficient and data-efficient: with only one demonstration, RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success rate within 15 iterations. Furthermore, we demonstrate that the policy learned by RIPT-VLA generalizes across different tasks and scenarios and is robust to the initial state context. These results highlight RIPT-VLA as a practical and effective paradigm for post-training VLA models through minimal supervision.