Un Modello Visione-Linguaggio-Azione-Critico per l'Apprendimento per Rinforzo Robotico nel Mondo Reale
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
September 19, 2025
Autori: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI
Abstract
L'apprendimento per rinforzo (RL) robotico nel mondo reale con modelli visione-linguaggio-azione (VLA) è limitato da ricompense sparse e artigianali e da un'esplorazione inefficiente. Introduciamo VLAC, un modello generale di ricompensa basato su InternVL e addestrato su vasti dataset eterogenei. Dati osservazioni a coppie e un obiettivo linguistico, produce un delta di progresso denso e un segnale di completamento, eliminando l'ingegnerizzazione specifica delle ricompense e supportando il trasferimento one-shot in contesti a compiti e ambienti non visti. VLAC è addestrato su dataset visione-linguaggio per rafforzare le capacità percettive, dialogiche e di ragionamento, insieme a dati di traiettorie umane e robotiche che ancorano la generazione di azioni e la stima del progresso, ed è ulteriormente potenziato per respingere prompt irrilevanti e rilevare regressioni o stagnazioni attraverso la costruzione di un gran numero di campioni negativi e semanticamente non corrispondenti. Con il controllo dei prompt, un singolo modello VLAC genera alternativamente token di ricompensa e azione, unificando critico e politica. Implementato all'interno di un ciclo RL asincrono nel mondo reale, stratifichiamo un protocollo graduale con l'uomo nel ciclo (replay di dimostrazioni offline, ritorno ed esplorazione, esplorazione guidata dall'uomo) che accelera l'esplorazione e stabilizza l'apprendimento iniziale. In quattro distinti compiti di manipolazione nel mondo reale, VLAC aumenta i tassi di successo da circa il 30% a circa il 90% entro 200 episodi di interazione reale; l'incorporazione di interventi con l'uomo nel ciclo produce un ulteriore miglioramento del 50% nell'efficienza del campionamento e raggiunge fino al 100% di successo finale.
English
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.