Post-formation interactive pour les modèles vision-langage-action
Interactive Post-Training for Vision-Language-Action Models
May 22, 2025
Auteurs: Shuhan Tan, Kairan Dou, Yue Zhao, Philipp Krähenbühl
cs.AI
Résumé
Nous présentons RIPT-VLA, un paradigme simple et évolutif d'apprentissage par renforcement interactif post-entraînement qui affine des modèles Vision-Langue-Action (VLA) pré-entraînés en utilisant uniquement des récompenses binaires de succès éparses. Les pipelines d'entraînement existants pour les modèles VLA reposent fortement sur des données de démonstration expertes hors ligne et sur l'imitation supervisée, limitant ainsi leur capacité à s'adapter à de nouvelles tâches et environnements dans des régimes à faible quantité de données. RIPT-VLA résout ce problème en permettant un post-entraînement interactif avec un algorithme d'optimisation de politique stable basé sur un échantillonnage dynamique de déploiement et une estimation d'avantage par exclusion mutuelle.
RIPT-VLA possède les caractéristiques suivantes. Premièrement, il s'applique à divers modèles VLA, améliorant le modèle léger QueST de 21,2 % et portant le modèle OpenVLA-OFT de 7B à un taux de succès inédit de 97,5 %. Deuxièmement, il est efficace en termes de calcul et de données : avec une seule démonstration, RIPT-VLA permet à un modèle SFT initialement inopérant (4 %) d'atteindre un taux de succès de 97 % en seulement 15 itérations. De plus, nous démontrons que la politique apprise par RIPT-VLA se généralise à différentes tâches et scénarios et est robuste au contexte de l'état initial. Ces résultats mettent en évidence RIPT-VLA comme un paradigme pratique et efficace pour le post-entraînement des modèles VLA avec une supervision minimale.
English
We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based
interactive post-training paradigm that fine-tunes pretrained
Vision-Language-Action (VLA) models using only sparse binary success rewards.
Existing VLA training pipelines rely heavily on offline expert demonstration
data and supervised imitation, limiting their ability to adapt to new tasks and
environments under low-data regimes. RIPT-VLA addresses this by enabling
interactive post-training with a stable policy optimization algorithm based on
dynamic rollout sampling and leave-one-out advantage estimation.
RIPT-VLA has the following characteristics. First, it applies to various VLA
models, resulting in an improvement on the lightweight QueST model by 21.2%,
and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it
is computationally efficient and data-efficient: with only one demonstration,
RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success
rate within 15 iterations. Furthermore, we demonstrate that the policy learned
by RIPT-VLA generalizes across different tasks and scenarios and is robust to
the initial state context. These results highlight RIPT-VLA as a practical and
effective paradigm for post-training VLA models through minimal supervision.Summary
AI-Generated Summary