OpenGVL - Benchmarking del Progresso Temporale Visivo per la Cura dei Dati

Abstract

La scarsità di dati rimane uno dei fattori più limitanti nel guidare il progresso della robotica. Tuttavia, la quantità di dati robotici disponibili in contesti reali sta crescendo in modo esponenziale, creando nuove opportunità per l'utilizzo su larga scala dei dati. Una previsione affidabile del completamento temporale delle attività potrebbe aiutare a annotare e curare automaticamente questi dati su vasta scala. Recentemente è stato proposto l'approccio Generative Value Learning (GVL), che sfrutta la conoscenza incorporata nei modelli vision-language (VLM) per prevedere l'avanzamento delle attività dalle osservazioni visive. Basandoci su GVL, proponiamo OpenGVL, un benchmark completo per stimare l'avanzamento delle attività in una varietà di compiti di manipolazione impegnativi che coinvolgono sia robot che esseri umani. Valutiamo le capacità dei modelli open-source disponibili pubblicamente, dimostrando che le famiglie di modelli open-source hanno prestazioni significativamente inferiori rispetto alle controparti closed-source, raggiungendo solo circa il 70% delle loro prestazioni nei compiti di previsione del progresso temporale. Inoltre, mostriamo come OpenGVL possa servire come strumento pratico per la cura e il filtraggio automatico dei dati, consentendo una valutazione efficiente della qualità di grandi dataset robotici. Rilasciamo il benchmark insieme al codice completo su github.com/budzianowski/opengvl{OpenGVL}.

English

Data scarcity remains one of the most limiting factors in driving progress in robotics. However, the amount of available robotics data in the wild is growing exponentially, creating new opportunities for large-scale data utilization. Reliable temporal task completion prediction could help automatically annotate and curate this data at scale. The Generative Value Learning (GVL) approach was recently proposed, leveraging the knowledge embedded in vision-language models (VLMs) to predict task progress from visual observations. Building upon GVL, we propose OpenGVL, a comprehensive benchmark for estimating task progress across diverse challenging manipulation tasks involving both robotic and human embodiments. We evaluate the capabilities of publicly available open-source foundation models, showing that open-source model families significantly underperform closed-source counterparts, achieving only approximately 70% of their performance on temporal progress prediction tasks. Furthermore, we demonstrate how OpenGVL can serve as a practical tool for automated data curation and filtering, enabling efficient quality assessment of large-scale robotics datasets. We release the benchmark along with the complete codebase at github.com/budzianowski/opengvl{OpenGVL}.

OpenGVL - Benchmarking del Progresso Temporale Visivo per la Cura dei Dati

OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

Abstract

Support