로봇 공학을 위한 은닉 제로샷 보상으로서의 토큰 확률: TOPReward
TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics
February 22, 2026
저자: Shirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna
cs.AI
초록
비전-언어-행동(VLA) 모델의 사전 훈련은 빠르게 발전하고 있으나, 실제 환경에서의 강화 학습(RL) 성능 향상은 낮은 샘플 효율성과 희소한 보상으로 인해 여전히 제한받고 있습니다. 이러한 격차를 해소하기 위해 세밀한 피드백을 제공할 수 있는 일반화 가능한 과정 보상 모델의 개발이 필수적이지만, 기존의 시간적 가치 함수는 훈련 도메인을 벗어나면 제대로 일반화되지 않는 경우가 많습니다. 본 연구에서는 사전 훈련된 비디오 비전-언어 모델(VLM)의 잠재된 세계 지식을 활용하여 로봇 작업 진행률을 추정하는, 확률론적 기반을 가진 새로운 시간적 가치 함수인 TOPReward를 소개합니다. 수치적 오표현에 취약한 직접 진행률 값 출력을 VLM에 요구하는 기존 방법과 달리, TOPReward는 VLM의 내부 토큰 로짓에서 직접 작업 진행률을 추출합니다. 130개 이상의 서로 다른 실제 작업과 여러 로봇 플랫폼(예: Franka, YAM, SO-100/101)에 대한 제로샷 평가에서 TOPReward는 Qwen3-VL 기준 평균 값 순서 상관관계(VOC) 0.947을 달성하여, 동일한 오픈소스 모델에서 거의 제로에 가까운 상관관계를 보인 최첨단 GVL 기준선을 크게 능가했습니다. 또한 TOPReward가 성공 감지 및 보상 정렬 행동 복제를 포함한 다운스트림 응용 프로그램에 대한 다목적 도구로 활용될 수 있음을 입증합니다.
English
While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.