TOPReward: Probabilidades de Tokens como Recompensas Ocultas de Zero-Shot para Robótica

Resumo

Embora os modelos Visão-Linguagem-Ação (VLA) tenham registado progressos rápidos no pré-treinamento, o seu avanço na Aprendizagem por Reforço (RL) continua a ser dificultado pela baixa eficiência amostral e recompensas esparsas em ambientes do mundo real. O desenvolvimento de modelos de recompensa de processo generalizáveis é essencial para fornecer o *feedback* granular necessário para colmatar esta lacuna, no entanto, as funções de valor temporal existentes frequentemente não conseguem generalizar para além dos seus domínios de treino. Apresentamos o TOPReward, uma nova função de valor temporal, fundamentada probabilisticamente, que aproveita o conhecimento latente do mundo dos modelos de visão e linguagem (VLM) pré-treinados em vídeo para estimar o progresso de tarefas robóticas. Ao contrário de métodos anteriores que solicitam aos VLMs que emitam directamente valores de progresso – uma abordagem propensa a más representações numéricas – o TOPReward extrai o progresso da tarefa directamente dos *logits* dos *tokens* internos do VLM. Em avaliações *zero-shot* em mais de 130 tarefas distintas do mundo real e em múltiplas plataformas robóticas (por exemplo, Franka, YAM, SO-100/101), o TOPReward alcança uma Correlação de Ordem-Valor (VOC) média de 0.947 no Qwen3-VL, superando dramaticamente a linha de estado da arte GVL, que alcança uma correlação próxima de zero no mesmo modelo de código aberto. Demonstramos ainda que o TOPReward serve como uma ferramenta versátil para aplicações subsequentes, incluindo detecção de sucesso e clonagem de comportamento alinhada com a recompensa.

English

While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.

TOPReward: Probabilidades de Tokens como Recompensas Ocultas de Zero-Shot para Robótica

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Resumo

Support