TOPReward : Les Probabilités de Tokens comme Récompenses Cachées Zero-Shot pour la Robotique

Résumé

Si les modèles Vision-Langage-Action (VLA) ont connu des progrès rapides en pré-entraînement, leur avancée en Apprentissage par Renforcement (RL) reste entravée par une faible efficacité d'échantillonnage et des récompenses rares dans des environnements réels. Le développement de modèles de récompense de processus généralisables est essentiel pour fournir le retour granulaire nécessaire afin de combler cet écart. Pourtant, les fonctions de valeur temporelles existantes échouent souvent à généraliser au-delà de leurs domaines d'entraînement. Nous présentons TOPReward, une nouvelle fonction de valeur temporelle fondée sur des probabilités, qui exploite les connaissances latentes du monde des modèles Vision-Langage (VLM) pré-entraînés sur la vidéo pour estimer la progression des tâches robotiques. Contrairement aux méthodes antérieures qui incitent les VLM à produire directement des valeurs de progression, une approche sujette aux erreurs de représentation numérique, TOPReward extrait la progression de la tâche directement des logits des tokens internes du VLM. Dans des évaluations zero-shot sur plus de 130 tâches distinctes du monde réel et sur plusieurs plates-formes robotiques (par exemple, Franka, YAM, SO-100/101), TOPReward atteint une Corrélation d'Ordre de Valeur (VOC) moyenne de 0,947 sur Qwen3-VL, surpassant considérablement l'état de l'art, la baseline GVL, qui obtient une corrélation proche de zéro sur le même modèle open-source. Nous démontrons en outre que TOPReward constitue un outil polyvalent pour des applications en aval, notamment la détection de succès et le clonage de comportement aligné sur la récompense.

English

While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.

TOPReward : Les Probabilités de Tokens comme Récompenses Cachées Zero-Shot pour la Robotique

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Résumé

Support