Un modèle Vision-Langue-Action-Critique pour l'apprentissage par renforcement robotique en environnement réel
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
September 19, 2025
papers.authors: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) en milieu réel avec des modèles vision-langage-action (VLA) est limité par des récompenses clairsemées et artisanales, ainsi qu'une exploration inefficace. Nous présentons VLAC, un modèle de récompense de processus général construit sur InternVL et entraîné sur des ensembles de données hétérogènes à grande échelle. Étant donné des observations par paires et un objectif linguistique, il génère un delta de progression dense et un signal de fin, éliminant ainsi l'ingénierie de récompense spécifique à la tâche, et permet un transfert en contexte en une seule étape vers des tâches et environnements inédits. VLAC est entraîné sur des ensembles de données vision-langage pour renforcer les capacités de perception, de dialogue et de raisonnement, ainsi que sur des données de trajectoires robotiques et humaines qui ancrent la génération d'actions et l'estimation de la progression. Il est également renforcé pour rejeter les invites non pertinentes et détecter la régression ou la stagnation en construisant un grand nombre d'échantillons négatifs et sémantiquement discordants. Avec un contrôle des invites, un seul modèle VLAC génère alternativement des jetons de récompense et d'action, unifiant ainsi le critique et la politique. Déployé dans une boucle RL asynchrone en milieu réel, nous superposons un protocole gradué d'intervention humaine (relecture de démonstrations hors ligne, retour et exploration, exploration guidée par l'humain) qui accélère l'exploration et stabilise l'apprentissage initial. Sur quatre tâches de manipulation distinctes en milieu réel, VLAC augmente les taux de réussite d'environ 30 % à environ 90 % en moins de 200 épisodes d'interaction réelle ; l'intégration d'interventions humaines dans la boucle améliore encore l'efficacité des échantillons de 50 % et atteint jusqu'à 100 % de réussite finale.
English
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.