Un Modelo Visión-Lenguaje-Acción-Crítico para el Aprendizaje por Refuerzo Robótico en el Mundo Real
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
September 19, 2025
Autores: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI
Resumen
El aprendizaje por refuerzo (RL) robótico en el mundo real con modelos de visión-lenguaje-acción (VLA) se ve limitado por recompensas escasas y diseñadas manualmente, así como por una exploración ineficiente. Presentamos VLAC, un modelo general de recompensa basado en InternVL y entrenado en grandes conjuntos de datos heterogéneos. Dadas observaciones pareadas y un objetivo en lenguaje natural, genera señales densas de progreso delta y de finalización, eliminando la ingeniería de recompensas específica para cada tarea, y permite la transferencia en contexto de una sola vez a tareas y entornos no vistos. VLAC se entrena en conjuntos de datos de visión-lenguaje para fortalecer las capacidades de percepción, diálogo y razonamiento, junto con datos de trayectorias de robots y humanos que fundamentan la generación de acciones y la estimación del progreso, y se refuerza adicionalmente para rechazar indicaciones irrelevantes y detectar regresiones o estancamientos mediante la construcción de un gran número de muestras negativas y semánticamente desajustadas. Con control de indicaciones, un único modelo VLAC alterna la generación de tokens de recompensa y acción, unificando crítico y política. Implementado dentro de un bucle RL asíncrono en el mundo real, superponemos un protocolo gradual de humano-en-el-bucle (reproducción de demostraciones fuera de línea, retorno y exploración, exploración guiada por humanos) que acelera la exploración y estabiliza el aprendizaje temprano. En cuatro tareas distintas de manipulación en el mundo real, VLAC eleva las tasas de éxito de aproximadamente 30% a alrededor de 90% dentro de 200 episodios de interacción en el mundo real; la incorporación de intervenciones de humano-en-el-bucle produce una mejora adicional del 50% en la eficiencia de muestreo y alcanza hasta un 100% de éxito final.
English
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.