Een Vision-Taal-Actie-Critic Model voor Robotica en Real-World Versterkend Leren
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
September 19, 2025
Auteurs: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI
Samenvatting
Robotisch reinforcement learning (RL) in de echte wereld met vision-language-action (VLA) modellen wordt beperkt door schaarse, handmatig ontworpen beloningen en inefficiënte exploratie. We introduceren VLAC, een algemeen procesbeloningsmodel gebaseerd op InternVL en getraind op grootschalige heterogene datasets. Gegeven gepaarde observaties en een taaldoel, produceert het dichte voortgangsdelta's en een done-signaal, waardoor taakspecifieke beloningsengineering overbodig wordt, en ondersteunt het one-shot in-context transfer naar onbekende taken en omgevingen. VLAC is getraind op vision-language datasets om perceptie, dialogische en redeneervaardigheden te versterken, samen met robot- en menselijke trajectgegevens die actiegeneratie en voortgangsschatting grondvesten, en is verder versterkt om irrelevante prompts af te wijzen en regressie of stagnatie te detecteren door het construeren van grote aantallen negatieve en semantisch niet-overeenkomende samples. Met promptcontrole genereert een enkel VLAC-model afwisselend belonings- en actietokens, waardoor criticus en beleid worden verenigd. Geïmplementeerd in een asynchrone RL-loop in de echte wereld, voegen we een geleidelijk human-in-the-loop protocol toe (offline demonstratieherhaling, terugkeer en exploratie, door mensen geleide exploratie) dat exploratie versnelt en vroeg leren stabiliseert. Over vier verschillende manipulatie taken in de echte wereld verhoogt VLAC succespercentages van ongeveer 30% naar ongeveer 90% binnen 200 interactie-episodes in de echte wereld; het integreren van human-in-the-loop interventies levert een verdere 50% verbetering in sample-efficiëntie op en bereikt tot 100% uiteindelijk succes.
English
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.