OpenGVL – Benchmarking des visuellen zeitlichen Fortschritts für die Datenkuratierung

papers.abstract

Datenknappheit bleibt einer der größten limitierenden Faktoren für den Fortschritt in der Robotik. Allerdings wächst die Menge der verfügbaren Robotikdaten in der realen Welt exponentiell, was neue Möglichkeiten für die großflächige Nutzung von Daten eröffnet. Eine zuverlässige Vorhersage des zeitlichen Aufgabenabschlusses könnte helfen, diese Daten automatisch in großem Maßstab zu annotieren und zu kuratieren. Der Generative Value Learning (GVL)-Ansatz wurde kürzlich vorgeschlagen, der das in Vision-Language-Models (VLMs) eingebettete Wissen nutzt, um den Aufgabenfortschritt aus visuellen Beobachtungen vorherzusagen. Aufbauend auf GVL schlagen wir OpenGVL vor, einen umfassenden Benchmark zur Schätzung des Aufgabenfortschritts über verschiedene anspruchsvolle Manipulationsaufgaben hinweg, die sowohl robotische als auch menschliche Verkörperungen betreffen. Wir bewerten die Fähigkeiten öffentlich verfügbarer Open-Source-Foundation-Models und zeigen, dass Open-Source-Modellfamilien deutlich schlechter abschneiden als ihre Closed-Source-Pendants und nur etwa 70 % ihrer Leistung bei der Vorhersage des zeitlichen Fortschritts erreichen. Darüber hinaus demonstrieren wir, wie OpenGVL als praktisches Werkzeug für die automatisierte Datenkuratierung und -filterung dienen kann, um eine effiziente Qualitätsbewertung großflächiger Robotikdatensätze zu ermöglichen. Wir veröffentlichen den Benchmark zusammen mit dem vollständigen Codebase unter github.com/budzianowski/opengvl{OpenGVL}.

English

Data scarcity remains one of the most limiting factors in driving progress in robotics. However, the amount of available robotics data in the wild is growing exponentially, creating new opportunities for large-scale data utilization. Reliable temporal task completion prediction could help automatically annotate and curate this data at scale. The Generative Value Learning (GVL) approach was recently proposed, leveraging the knowledge embedded in vision-language models (VLMs) to predict task progress from visual observations. Building upon GVL, we propose OpenGVL, a comprehensive benchmark for estimating task progress across diverse challenging manipulation tasks involving both robotic and human embodiments. We evaluate the capabilities of publicly available open-source foundation models, showing that open-source model families significantly underperform closed-source counterparts, achieving only approximately 70% of their performance on temporal progress prediction tasks. Furthermore, we demonstrate how OpenGVL can serve as a practical tool for automated data curation and filtering, enabling efficient quality assessment of large-scale robotics datasets. We release the benchmark along with the complete codebase at github.com/budzianowski/opengvl{OpenGVL}.

OpenGVL – Benchmarking des visuellen zeitlichen Fortschritts für die Datenkuratierung

OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

papers.abstract

Support