TOPReward: Вероятности токенов как скрытые вознаграждения для робототехники без обучения с подкреплением

Аннотация

Хотя модели "Vision-Language-Action" (VLA) демонстрируют быстрый прогресс в предварительном обучении, их развитие в области обучения с подкреплением (RL) по-прежнему сдерживается низкой эффективностью использования выборок и разреженностью вознаграждений в реальных условиях. Разработка обобщаемых моделей процессуального вознаграждения крайне важна для обеспечения детальной обратной связи, необходимой для преодоления этого разрыва, однако существующие временные функции ценности часто не способны к обобщению за пределы своих обучающих областей. Мы представляем TOPReward — новую, вероятностно обоснованную временную функцию ценности, которая использует скрытые знания о мире предобученных видео-визуально-языковых моделей (VLM) для оценки прогресса выполнения роботизированной задачи. В отличие от предыдущих методов, которые запрашивают у VLM прямую выдачу численных значений прогресса, склонных к искажению, TOPReward извлекает прогресс задачи непосредственно из внутренних токенных логитов VLM. В условиях zero-shot-оценки на более чем 130 различных реальных задачах и нескольких роботизированных платформах (например, Franka, YAM, SO-100/101) TOPReward достигает среднего коэффициента ценностно-порядковой корреляции (VOC) 0.947 на модели Qwen3-VL, что значительно превосходит современный базовый метод GVL, который показывает корреляцию, близкую к нулю, на той же открытой модели. Мы также демонстрируем, что TOPReward служит универсальным инструментом для прикладных задач, включая детектирование успешности выполнения и клонирование поведения, выровненного по вознаграждению.

English

While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.

TOPReward: Вероятности токенов как скрытые вознаграждения для робототехники без обучения с подкреплением

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Аннотация

Support