OpenGVL – Benchmarking des visuellen zeitlichen Fortschritts für die Datenkuratierung
OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
September 22, 2025
papers.authors: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas
cs.AI
papers.abstract
Datenknappheit bleibt einer der größten limitierenden Faktoren für den Fortschritt in der Robotik. Allerdings wächst die Menge der verfügbaren Robotikdaten in der realen Welt exponentiell, was neue Möglichkeiten für die großflächige Nutzung von Daten eröffnet. Eine zuverlässige Vorhersage des zeitlichen Aufgabenabschlusses könnte helfen, diese Daten automatisch in großem Maßstab zu annotieren und zu kuratieren. Der Generative Value Learning (GVL)-Ansatz wurde kürzlich vorgeschlagen, der das in Vision-Language-Models (VLMs) eingebettete Wissen nutzt, um den Aufgabenfortschritt aus visuellen Beobachtungen vorherzusagen. Aufbauend auf GVL schlagen wir OpenGVL vor, einen umfassenden Benchmark zur Schätzung des Aufgabenfortschritts über verschiedene anspruchsvolle Manipulationsaufgaben hinweg, die sowohl robotische als auch menschliche Verkörperungen betreffen. Wir bewerten die Fähigkeiten öffentlich verfügbarer Open-Source-Foundation-Models und zeigen, dass Open-Source-Modellfamilien deutlich schlechter abschneiden als ihre Closed-Source-Pendants und nur etwa 70 % ihrer Leistung bei der Vorhersage des zeitlichen Fortschritts erreichen. Darüber hinaus demonstrieren wir, wie OpenGVL als praktisches Werkzeug für die automatisierte Datenkuratierung und -filterung dienen kann, um eine effiziente Qualitätsbewertung großflächiger Robotikdatensätze zu ermöglichen. Wir veröffentlichen den Benchmark zusammen mit dem vollständigen Codebase unter github.com/budzianowski/opengvl{OpenGVL}.
English
Data scarcity remains one of the most limiting factors in driving progress in
robotics. However, the amount of available robotics data in the wild is growing
exponentially, creating new opportunities for large-scale data utilization.
Reliable temporal task completion prediction could help automatically annotate
and curate this data at scale. The Generative Value Learning (GVL) approach was
recently proposed, leveraging the knowledge embedded in vision-language models
(VLMs) to predict task progress from visual observations. Building upon GVL, we
propose OpenGVL, a comprehensive benchmark for estimating task progress across
diverse challenging manipulation tasks involving both robotic and human
embodiments. We evaluate the capabilities of publicly available open-source
foundation models, showing that open-source model families significantly
underperform closed-source counterparts, achieving only approximately 70% of
their performance on temporal progress prediction tasks. Furthermore, we
demonstrate how OpenGVL can serve as a practical tool for automated data
curation and filtering, enabling efficient quality assessment of large-scale
robotics datasets. We release the benchmark along with the complete codebase at
github.com/budzianowski/opengvl{OpenGVL}.