ChatPaper.aiChatPaper

로봇 실세계 강화 학습을 위한 비전-언어-행동-비평 모델

A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

September 19, 2025
저자: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang
cs.AI

초록

비전-언어-행동(VLA) 모델을 활용한 로봇의 실세계 강화학습(RL)은 희소하고 수작업으로 설계된 보상과 비효율적인 탐색으로 인해 병목 현상을 겪고 있습니다. 우리는 대규모 이질적 데이터셋을 기반으로 훈련된 InternVL 위에 구축된 일반적인 과정 보상 모델인 VLAC를 소개합니다. 이 모델은 쌍으로 주어진 관측값과 언어 목표를 입력받아 조밀한 진행도 변화량과 완료 신호를 출력함으로써, 작업별 보상 설계의 필요성을 없애고, 보지 못한 작업과 환경에 대한 원샷 인컨텍스트 전이를 지원합니다. VLAC는 비전-언어 데이터셋을 통해 지각, 대화 및 추론 능력을 강화하고, 로봇 및 인간 궤적 데이터를 통해 행동 생성과 진행도 추정을 기반으로 하며, 또한 대량의 부정적 및 의미론적으로 불일치하는 샘플을 구성하여 관련 없는 프롬프트를 거부하고 퇴행 또는 정체를 감지하는 능력을 추가로 강화합니다. 프롬프트 제어를 통해, 단일 VLAC 모델이 보상과 행동 토큰을 번갈아 생성하며 비평가와 정책을 통합합니다. 비동기식 실세계 RL 루프 내부에 배치된 VLAC는 단계적 인간-참여 프로토콜(오프라인 데모 재생, 반환 및 탐색, 인간 지도 탐색)을 계층화하여 탐색을 가속화하고 초기 학습을 안정화합니다. 네 가지 독립적인 실세계 조작 작업에서 VLAC는 약 200회의 실세계 상호작용 에피소드 내에서 성공률을 약 30%에서 약 90%로 향상시켰으며, 인간-참여 개입을 통합함으로써 샘플 효율성을 추가로 50% 개선하고 최대 100%의 최종 성공률을 달성했습니다.
English
Robotic real-world reinforcement learning (RL) with vision-language-action (VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient exploration. We introduce VLAC, a general process reward model built upon InternVL and trained on large scale heterogeneous datasets. Given pairwise observations and a language goal, it outputs dense progress delta and done signal, eliminating task-specific reward engineering, and supports one-shot in-context transfer to unseen tasks and environments. VLAC is trained on vision-language datasets to strengthen perception, dialogic and reasoning capabilities, together with robot and human trajectories data that ground action generation and progress estimation, and additionally strengthened to reject irrelevant prompts as well as detect regression or stagnation by constructing large numbers of negative and semantically mismatched samples. With prompt control, a single VLAC model alternately generating reward and action tokens, unifying critic and policy. Deployed inside an asynchronous real-world RL loop, we layer a graded human-in-the-loop protocol (offline demonstration replay, return and explore, human guided explore) that accelerates exploration and stabilizes early learning. Across four distinct real-world manipulation tasks, VLAC lifts success rates from about 30\% to about 90\% within 200 real-world interaction episodes; incorporating human-in-the-loop interventions yields a further 50% improvement in sample efficiency and achieves up to 100% final success.
PDF182September 22, 2025