TOPReward: Probabilità dei Token come Ricompense Zero-Shot Nascoste per la Robotica

Abstract

Sebbene i modelli Visione-Linguaggio-Azione (VLA) abbiano registrato rapidi progressi nel pre-addestramento, il loro avanzamento nell'Apprendimento per Rinforzo (RL) rimane ostacolato dalla bassa efficienza campionaria e dalla scarsità di ricompense in contesti del mondo reale. Lo sviluppo di modelli di ricompensa di processo generalizzabili è essenziale per fornire il feedback granulare necessario a colmare questa lacuna, eppure le funzioni di valore temporale esistenti spesso non riescono a generalizzare al di là dei loro domini di addestramento. Introduciamo TOPReward, una nuova funzione di valore temporale con fondamenti probabilistici, che sfrutta la conoscenza latente del mondo dei modelli video Visione-Linguaggio (VLM) pre-addestrati per stimare il progresso dei compiti robotici. A differenza dei metodi precedenti che richiedono ai VLM di emettere direttamente valori di progresso, soggetti a errata rappresentazione numerica, TOPReward estrae il progresso del compito direttamente dai logit interni dei token del VLM. In valutazioni zero-shot su oltre 130 compiti distinti del mondo reale e su molteplici piattaforme robotiche (ad es., Franka, YAM, SO-100/101), TOPReward raggiunge una Correlazione Valore-Ordine (VOC) media di 0,947 su Qwen3-VL, superando drasticamente lo stato dell'arte della baseline GVL, che raggiunge una correlazione quasi zero sullo stesso modello open-source. Dimostriamo inoltre che TOPReward funge da strumento versatile per applicazioni a valle, inclusa la rilevazione del successo e la clonazione del comportamento allineata alla ricompensa.

English

While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.

TOPReward: Probabilità dei Token come Ricompense Zero-Shot Nascoste per la Robotica

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Abstract

Support