TOPReward: Tokenwahrscheinlichkeiten als versteckte Zero-Shot-Belohnungen für die Robotik

Zusammenfassung

Während Vision-Language-Action (VLA)-Modelle bei der Vorabschulung rasche Fortschritte verzeichnen, wird ihre Weiterentwicklung im Bereich des Reinforcement Learning (RL) nach wie vor durch geringe Stichprobeneffizienz und spärliche Belohnungssignale in realen Umgebungen behindert. Die Entwicklung generalisierbarer Prozessbelohnungsmodelle ist entscheidend, um die notwendige feinkörnige Rückmeldung zur Überbrückung dieser Lücke zu liefern. Bisherige temporale Wertfunktionen scheitern jedoch häufig an der Generalisierung über ihre Trainingsdomänen hinaus. Wir stellen TOPReward vor, eine neuartige, probabilistisch fundierte temporale Wertfunktion, die das latente Weltwissen vortrainierter Video-Vision-Language-Modelle (VLMs) nutzt, um den Fortschritt robotischer Aufgaben abzuschätzen. Im Gegensatz zu früheren Methoden, die VLMs anweisen, direkt Fortschrittswerte auszugeben – was anfällig für numerische Fehldarstellungen ist – extrahiert TOPReward den Aufgabenfortschritt direkt aus den internen Token-Logits des VLM. In Zero-Shot-Evaluierungen über 130+ verschiedene reale Aufgaben und mehrere Roboterplattformen (z.B. Franka, YAM, SO-100/101) erreicht TOPReward einen mittleren Value-Order-Korrelationskoeffizienten (VOC) von 0,947 auf Qwen3-VL und übertrifft damit den state-of-the-art GVL-Baseline, der auf demselben Open-Source-Modell eine nahezu nullkorrelation erreicht, dramatisch. Wir zeigen des Weiteren, dass TOPReward als vielseitiges Werkzeug für nachgelagerte Anwendungen dient, einschließlich Erfolgsdetektion und belohnungsausgerichtetem Behavior Cloning.

English

While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.

TOPReward: Tokenwahrscheinlichkeiten als versteckte Zero-Shot-Belohnungen für die Robotik

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Zusammenfassung

Support