OpenGVL - Evaluación comparativa del progreso temporal visual para la curación de datos
OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
September 22, 2025
Autores: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas
cs.AI
Resumen
La escasez de datos sigue siendo uno de los factores más limitantes para impulsar el progreso en robótica. Sin embargo, la cantidad de datos robóticos disponibles en entornos reales está creciendo exponencialmente, creando nuevas oportunidades para la utilización de datos a gran escala. La predicción confiable de la finalización temporal de tareas podría ayudar a anotar y curar automáticamente estos datos a escala. Recientemente se propuso el enfoque de Aprendizaje de Valor Generativo (GVL), que aprovecha el conocimiento incrustado en los modelos de visión y lenguaje (VLMs) para predecir el progreso de las tareas a partir de observaciones visuales. Basándonos en GVL, proponemos OpenGVL, un punto de referencia integral para estimar el progreso de tareas en diversas tareas de manipulación desafiantes que involucran tanto robots como humanos. Evaluamos las capacidades de los modelos de base de código abierto disponibles públicamente, mostrando que las familias de modelos de código abierto tienen un rendimiento significativamente inferior al de sus contrapartes de código cerrado, alcanzando solo aproximadamente el 70% de su rendimiento en tareas de predicción de progreso temporal. Además, demostramos cómo OpenGVL puede servir como una herramienta práctica para la curación y filtrado automático de datos, permitiendo una evaluación eficiente de la calidad de grandes conjuntos de datos robóticos. Publicamos el punto de referencia junto con el código completo en github.com/budzianowski/opengvl{OpenGVL}.
English
Data scarcity remains one of the most limiting factors in driving progress in
robotics. However, the amount of available robotics data in the wild is growing
exponentially, creating new opportunities for large-scale data utilization.
Reliable temporal task completion prediction could help automatically annotate
and curate this data at scale. The Generative Value Learning (GVL) approach was
recently proposed, leveraging the knowledge embedded in vision-language models
(VLMs) to predict task progress from visual observations. Building upon GVL, we
propose OpenGVL, a comprehensive benchmark for estimating task progress across
diverse challenging manipulation tasks involving both robotic and human
embodiments. We evaluate the capabilities of publicly available open-source
foundation models, showing that open-source model families significantly
underperform closed-source counterparts, achieving only approximately 70% of
their performance on temporal progress prediction tasks. Furthermore, we
demonstrate how OpenGVL can serve as a practical tool for automated data
curation and filtering, enabling efficient quality assessment of large-scale
robotics datasets. We release the benchmark along with the complete codebase at
github.com/budzianowski/opengvl{OpenGVL}.