OpenGVL - Évaluation de la progression temporelle visuelle pour la curation de données
OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
September 22, 2025
papers.authors: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas
cs.AI
papers.abstract
La rareté des données reste l'un des facteurs les plus limitants pour faire progresser la robotique. Cependant, la quantité de données robotiques disponibles dans le monde réel croît de manière exponentielle, ouvrant de nouvelles opportunités pour l'utilisation de données à grande échelle. Une prédiction fiable de l'achèvement temporel des tâches pourrait aider à annoter et à organiser automatiquement ces données à grande échelle. L'approche Generative Value Learning (GVL) a récemment été proposée, exploitant les connaissances intégrées dans les modèles vision-langage (VLMs) pour prédire l'avancement des tâches à partir d'observations visuelles. En nous appuyant sur GVL, nous proposons OpenGVL, un benchmark complet pour estimer l'avancement des tâches dans divers défis de manipulation impliquant à la fois des robots et des incarnations humaines. Nous évaluons les capacités des modèles de base open-source disponibles publiquement, montrant que les familles de modèles open-source sont nettement moins performantes que leurs homologues propriétaires, atteignant seulement environ 70 % de leurs performances sur les tâches de prédiction de progression temporelle. De plus, nous démontrons comment OpenGVL peut servir d'outil pratique pour la curation et le filtrage automatisés des données, permettant une évaluation efficace de la qualité des ensembles de données robotiques à grande échelle. Nous publions le benchmark ainsi que l'intégralité du code sur github.com/budzianowski/opengvl{OpenGVL}.
English
Data scarcity remains one of the most limiting factors in driving progress in
robotics. However, the amount of available robotics data in the wild is growing
exponentially, creating new opportunities for large-scale data utilization.
Reliable temporal task completion prediction could help automatically annotate
and curate this data at scale. The Generative Value Learning (GVL) approach was
recently proposed, leveraging the knowledge embedded in vision-language models
(VLMs) to predict task progress from visual observations. Building upon GVL, we
propose OpenGVL, a comprehensive benchmark for estimating task progress across
diverse challenging manipulation tasks involving both robotic and human
embodiments. We evaluate the capabilities of publicly available open-source
foundation models, showing that open-source model families significantly
underperform closed-source counterparts, achieving only approximately 70% of
their performance on temporal progress prediction tasks. Furthermore, we
demonstrate how OpenGVL can serve as a practical tool for automated data
curation and filtering, enabling efficient quality assessment of large-scale
robotics datasets. We release the benchmark along with the complete codebase at
github.com/budzianowski/opengvl{OpenGVL}.