OpenGVL - Évaluation de la progression temporelle visuelle pour la curation de données

papers.abstract

La rareté des données reste l'un des facteurs les plus limitants pour faire progresser la robotique. Cependant, la quantité de données robotiques disponibles dans le monde réel croît de manière exponentielle, ouvrant de nouvelles opportunités pour l'utilisation de données à grande échelle. Une prédiction fiable de l'achèvement temporel des tâches pourrait aider à annoter et à organiser automatiquement ces données à grande échelle. L'approche Generative Value Learning (GVL) a récemment été proposée, exploitant les connaissances intégrées dans les modèles vision-langage (VLMs) pour prédire l'avancement des tâches à partir d'observations visuelles. En nous appuyant sur GVL, nous proposons OpenGVL, un benchmark complet pour estimer l'avancement des tâches dans divers défis de manipulation impliquant à la fois des robots et des incarnations humaines. Nous évaluons les capacités des modèles de base open-source disponibles publiquement, montrant que les familles de modèles open-source sont nettement moins performantes que leurs homologues propriétaires, atteignant seulement environ 70 % de leurs performances sur les tâches de prédiction de progression temporelle. De plus, nous démontrons comment OpenGVL peut servir d'outil pratique pour la curation et le filtrage automatisés des données, permettant une évaluation efficace de la qualité des ensembles de données robotiques à grande échelle. Nous publions le benchmark ainsi que l'intégralité du code sur github.com/budzianowski/opengvl{OpenGVL}.

English

Data scarcity remains one of the most limiting factors in driving progress in robotics. However, the amount of available robotics data in the wild is growing exponentially, creating new opportunities for large-scale data utilization. Reliable temporal task completion prediction could help automatically annotate and curate this data at scale. The Generative Value Learning (GVL) approach was recently proposed, leveraging the knowledge embedded in vision-language models (VLMs) to predict task progress from visual observations. Building upon GVL, we propose OpenGVL, a comprehensive benchmark for estimating task progress across diverse challenging manipulation tasks involving both robotic and human embodiments. We evaluate the capabilities of publicly available open-source foundation models, showing that open-source model families significantly underperform closed-source counterparts, achieving only approximately 70% of their performance on temporal progress prediction tasks. Furthermore, we demonstrate how OpenGVL can serve as a practical tool for automated data curation and filtering, enabling efficient quality assessment of large-scale robotics datasets. We release the benchmark along with the complete codebase at github.com/budzianowski/opengvl{OpenGVL}.

OpenGVL - Évaluation de la progression temporelle visuelle pour la curation de données

OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

papers.abstract

Support