TOPReward: Probabilidades de Token como Recompensas Ocultas de Cero Disparos para Robótica

Resumen

Si bien los modelos Visión-Lenguaje-Acción (VLA) han experimentado un rápido progreso en el preentrenamiento, su avance en el Aprendizaje por Refuerzo (RL) sigue estando obstaculizado por la baja eficiencia muestral y las recompensas dispersas en entornos del mundo real. El desarrollo de modelos de recompensa de proceso generalizables es esencial para proporcionar la retroalimentación detallada necesaria para cerrar esta brecha; sin embargo, las funciones de valor temporal existentes a menudo no logran generalizar más allá de sus dominios de entrenamiento. Presentamos TOPReward, una novedosa función de valor temporal con base probabilística que aprovecha el conocimiento mundial latente de los modelos de visión y lenguaje (VLM) preentrenados en video para estimar el progreso de tareas robóticas. A diferencia de métodos anteriores que solicitan a los VLM que generen valores de progreso directamente, lo cual es propenso a errores de representación numérica, TOPReward extrae el progreso de la tarea directamente de los logits internos de los tokens del VLM. En evaluaciones zero-shot en más de 130 tareas distintas del mundo real y múltiples plataformas robóticas (por ejemplo, Franka, YAM, SO-100/101), TOPReward alcanza una Correlación de Orden-Valor (VOC) media de 0.947 en Qwen3-VL, superando drásticamente el estado del arte del baseline GVL, que logra una correlación cercana a cero en el mismo modelo de código abierto. Además, demostramos que TOPReward sirve como una herramienta versátil para aplicaciones posteriores, incluida la detección de éxito y la clonación de comportamientos alineada con la recompensa.

English

While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.

TOPReward: Probabilidades de Token como Recompensas Ocultas de Cero Disparos para Robótica

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Resumen

Support