TOPReward: Tokenwaarschijnlijkheden als Verborgen Zero-Shot Beloningen voor Robotica

Samenvatting

Hoewel Vision-Language-Action (VLA)-modellen een snelle vooruitgang hebben geboekt in voorafgaande training, wordt hun voortgang in Reinforcement Learning (RL) nog steeds belemmerd door een lage steekproefefficiëntie en schaarse beloningen in real-world settings. De ontwikkeling van generaliseerbare procesbeloningsmodellen is essentieel om de fijnmazige feedback te leveren die nodig is om deze kloof te overbruggen, maar bestaande temporele waardefuncties slagen er vaak niet in om te generaliseren buiten hun trainingsdomeinen. Wij introduceren TOPReward, een nieuwe, probabilistisch gefundeerde temporele waardefunctie die gebruikmaakt van de latente wereldkennis van voorgetrainde video Vision-Language Models (VLMs) om de voortgang van robottaken in te schatten. In tegenstelling tot eerdere methoden die VLMs aansturen om direct voortgangswaarden uit te voeren, die gevoelig zijn voor numerieke misrepresentatie, extraheert TOPReward taakvoortgang rechtstreeks uit de interne token-logits van de VLM. In zero-shot evaluaties over 130+ verschillende real-world taken en meerdere robotplatforms (bijv. Franka, YAM, SO-100/101) behaalt TOPReward een gemiddelde Value-Order Correlation (VOC) van 0.947 op Qwen3-VL, wat een dramatische verbetering is ten opzichte van de state-of-the-art GVL-basislijn, die een correlatie nabij nul behaalt op hetzelfde open-source model. We tonen verder aan dat TOPReward een veelzijdig hulpmiddel is voor downstream-toepassingen, waaronder succesdetectie en beloningsgeëvenaard gedragsclonen.

English

While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.

TOPReward: Tokenwaarschijnlijkheden als Verborgen Zero-Shot Beloningen voor Robotica

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Samenvatting

Support