OpenGVL - Benchmarking del Progresso Temporale Visivo per la Cura dei Dati
OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
September 22, 2025
Autori: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas
cs.AI
Abstract
La scarsità di dati rimane uno dei fattori più limitanti nel guidare il progresso della robotica. Tuttavia, la quantità di dati robotici disponibili in contesti reali sta crescendo in modo esponenziale, creando nuove opportunità per l'utilizzo su larga scala dei dati. Una previsione affidabile del completamento temporale delle attività potrebbe aiutare a annotare e curare automaticamente questi dati su vasta scala. Recentemente è stato proposto l'approccio Generative Value Learning (GVL), che sfrutta la conoscenza incorporata nei modelli vision-language (VLM) per prevedere l'avanzamento delle attività dalle osservazioni visive. Basandoci su GVL, proponiamo OpenGVL, un benchmark completo per stimare l'avanzamento delle attività in una varietà di compiti di manipolazione impegnativi che coinvolgono sia robot che esseri umani. Valutiamo le capacità dei modelli open-source disponibili pubblicamente, dimostrando che le famiglie di modelli open-source hanno prestazioni significativamente inferiori rispetto alle controparti closed-source, raggiungendo solo circa il 70% delle loro prestazioni nei compiti di previsione del progresso temporale. Inoltre, mostriamo come OpenGVL possa servire come strumento pratico per la cura e il filtraggio automatico dei dati, consentendo una valutazione efficiente della qualità di grandi dataset robotici. Rilasciamo il benchmark insieme al codice completo su github.com/budzianowski/opengvl{OpenGVL}.
English
Data scarcity remains one of the most limiting factors in driving progress in
robotics. However, the amount of available robotics data in the wild is growing
exponentially, creating new opportunities for large-scale data utilization.
Reliable temporal task completion prediction could help automatically annotate
and curate this data at scale. The Generative Value Learning (GVL) approach was
recently proposed, leveraging the knowledge embedded in vision-language models
(VLMs) to predict task progress from visual observations. Building upon GVL, we
propose OpenGVL, a comprehensive benchmark for estimating task progress across
diverse challenging manipulation tasks involving both robotic and human
embodiments. We evaluate the capabilities of publicly available open-source
foundation models, showing that open-source model families significantly
underperform closed-source counterparts, achieving only approximately 70% of
their performance on temporal progress prediction tasks. Furthermore, we
demonstrate how OpenGVL can serve as a practical tool for automated data
curation and filtering, enabling efficient quality assessment of large-scale
robotics datasets. We release the benchmark along with the complete codebase at
github.com/budzianowski/opengvl{OpenGVL}.