Um Modelo Visão-Linguagem-Ação-Crítico para Aprendizado por Reforço Robótico no Mundo Real
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
September 19, 2025
Autores: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI
Resumo
O aprendizado por reforço (RL) robótico no mundo real com modelos visão-linguagem-ação (VLA) é limitado por recompensas esparsas e projetadas manualmente, além de exploração ineficiente. Introduzimos o VLAC, um modelo geral de recompensa de processo construído sobre o InternVL e treinado em grandes conjuntos de dados heterogêneos. Dadas observações pareadas e uma meta em linguagem natural, ele gera sinais densos de progresso delta e de conclusão, eliminando a engenharia de recompensas específicas para tarefas, e suporta transferência one-shot em contexto para tarefas e ambientes não vistos. O VLAC é treinado em conjuntos de dados visão-linguagem para fortalecer capacidades de percepção, diálogo e raciocínio, juntamente com dados de trajetórias de robôs e humanos que fundamentam a geração de ações e a estimativa de progresso, e é adicionalmente reforçado para rejeitar prompts irrelevantes e detectar regressão ou estagnação por meio da construção de um grande número de amostras negativas e semanticamente incompatíveis. Com controle de prompt, um único modelo VLAC alterna entre gerar tokens de recompensa e ação, unificando crítico e política. Implantado dentro de um loop de RL assíncrono no mundo real, adicionamos um protocolo graduado de humano-no-loop (replay de demonstração offline, retorno e exploração, exploração guiada por humanos) que acelera a exploração e estabiliza o aprendizado inicial. Em quatro tarefas distintas de manipulação no mundo real, o VLAC eleva as taxas de sucesso de cerca de 30% para cerca de 90% em 200 episódios de interação no mundo real; a incorporação de intervenções humano-no-loop resulta em uma melhoria adicional de 50% na eficiência amostral e alcança até 100% de sucesso final.
English
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.