Модель "Визуально-Языковой-Действие-Критик" для обучения с подкреплением роботов в реальном мире
A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
September 19, 2025
Авторы: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI
Аннотация
Роботизированное обучение с подкреплением (RL) в реальном мире с использованием моделей "визуальный язык-действие" (VLA) сталкивается с ограничениями из-за редких, вручную созданных наград и неэффективного исследования. Мы представляем VLAC — общую модель поощрения, основанную на InternVL и обученную на крупномасштабных гетерогенных данных. Принимая парные наблюдения и языковую цель, она выдает плотные сигналы прогресса и завершения, устраняя необходимость в специфической для задачи инженерии наград, и поддерживает одношаговый перенос в контексте на новые задачи и среды. VLAC обучается на наборах данных "визуальный язык" для усиления восприятия, диалоговых и логических способностей, а также на данных траекторий роботов и людей, которые закрепляют генерацию действий и оценку прогресса, и дополнительно укрепляется для отклонения нерелевантных запросов и обнаружения регрессии или застоя путем создания большого количества негативных и семантически несовпадающих примеров. С управлением запросами одна модель VLAC поочередно генерирует токены наград и действий, объединяя критика и политику. Развернутая внутри асинхронного цикла RL в реальном мире, мы используем многоуровневый протокол с участием человека (воспроизведение демонстраций оффлайн, возврат и исследование, исследование с участием человека), который ускоряет исследование и стабилизирует раннее обучение. В четырех различных задачах манипуляции в реальном мире VLAC повышает уровень успеха с примерно 30% до около 90% в течение 200 эпизодов взаимодействия в реальном мире; включение вмешательств с участием человека дает дополнительное улучшение эффективности выборки на 50% и достигает до 100% конечного успеха.
English
Robotic real-world reinforcement learning (RL) with vision-language-action
(VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient
exploration. We introduce VLAC, a general process reward model built upon
InternVL and trained on large scale heterogeneous datasets. Given pairwise
observations and a language goal, it outputs dense progress delta and done
signal, eliminating task-specific reward engineering, and supports one-shot
in-context transfer to unseen tasks and environments. VLAC is trained on
vision-language datasets to strengthen perception, dialogic and reasoning
capabilities, together with robot and human trajectories data that ground
action generation and progress estimation, and additionally strengthened to
reject irrelevant prompts as well as detect regression or stagnation by
constructing large numbers of negative and semantically mismatched samples.
With prompt control, a single VLAC model alternately generating reward and
action tokens, unifying critic and policy. Deployed inside an asynchronous
real-world RL loop, we layer a graded human-in-the-loop protocol (offline
demonstration replay, return and explore, human guided explore) that
accelerates exploration and stabilizes early learning. Across four distinct
real-world manipulation tasks, VLAC lifts success rates from about 30\% to
about 90\% within 200 real-world interaction episodes; incorporating
human-in-the-loop interventions yields a further 50% improvement in sample
efficiency and achieves up to 100% final success.