ChatPaper.aiChatPaper

TOPReward: ロボティクスのための隠れゼロショット報酬としてのトークン確率

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

February 22, 2026
著者: Shirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna
cs.AI

要旨

Vision-Language-Action(VLA)モデルは事前学習において急速な進歩を遂げているが、強化学習(RL)における発展は、実世界設定におけるサンプル効率の低さとスパースな報酬によって未だ妨げられている。一般化可能なプロセス報酬モデルの開発は、この隔たりを埋めるために必要な細かなフィードバックを提供する上で重要であるが、既存の時間的価値関数はしばしば学習領域を超えた一般化に失敗する。本研究では、事前学習済みビデオVision-Languageモデル(VLM)の潜在的な世界知識を活用してロボットタスクの進捗を推定する、確率論的基盤に基づく新規の時間的価値関数TOPRewardを提案する。VLMに直接進捗値を出力させる従来手法(数値の誤表現が生じやすい)とは異なり、TOPRewardはVLMの内部トークンロジットから直接タスク進捗を抽出する。130以上の実世界タスクおよび複数のロボットプラットフォーム(Franka、YAM、SO-100/101など)におけるゼロショット評価では、TOPRewardはQwen3-VLにおいて平均Value-Order相関(VOC)0.947を達成し、同じオープンソースモデルでほぼゼロの相関しか示さなかった従来の最先端手法GVLを大幅に上回った。さらにTOPRewardが、成功判定や報酬に沿った行動クローニングを含む下流アプリケーションにおける汎用ツールとして機能することを実証する。
English
While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.
PDF211February 25, 2026