OpenGVL - Avaliação de Progresso Temporal Visual para Curadoria de Dados
OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
September 22, 2025
Autores: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas
cs.AI
Resumo
A escassez de dados continua sendo um dos fatores mais limitantes para o avanço na robótica. No entanto, a quantidade de dados robóticos disponíveis no mundo real está crescendo exponencialmente, criando novas oportunidades para a utilização de dados em larga escala. A previsão confiável da conclusão temporal de tarefas poderia ajudar a anotar e curar automaticamente esses dados em grande escala. A abordagem de Aprendizado de Valor Generativo (Generative Value Learning - GVL) foi recentemente proposta, aproveitando o conhecimento incorporado em modelos de visão e linguagem (Vision-Language Models - VLMs) para prever o progresso de tarefas a partir de observações visuais. Com base no GVL, propomos o OpenGVL, um benchmark abrangente para estimar o progresso de tarefas em diversas tarefas de manipulação desafiadoras envolvendo tanto robôs quanto corpos humanos. Avaliamos as capacidades de modelos de base de código aberto disponíveis publicamente, mostrando que famílias de modelos de código aberto têm desempenho significativamente inferior aos seus equivalentes de código fechado, atingindo apenas aproximadamente 70% do desempenho deles em tarefas de previsão de progresso temporal. Além disso, demonstramos como o OpenGVL pode servir como uma ferramenta prática para curadoria e filtragem automatizada de dados, permitindo uma avaliação eficiente da qualidade de grandes conjuntos de dados robóticos. Disponibilizamos o benchmark juntamente com o código completo em github.com/budzianowski/opengvl{OpenGVL}.
English
Data scarcity remains one of the most limiting factors in driving progress in
robotics. However, the amount of available robotics data in the wild is growing
exponentially, creating new opportunities for large-scale data utilization.
Reliable temporal task completion prediction could help automatically annotate
and curate this data at scale. The Generative Value Learning (GVL) approach was
recently proposed, leveraging the knowledge embedded in vision-language models
(VLMs) to predict task progress from visual observations. Building upon GVL, we
propose OpenGVL, a comprehensive benchmark for estimating task progress across
diverse challenging manipulation tasks involving both robotic and human
embodiments. We evaluate the capabilities of publicly available open-source
foundation models, showing that open-source model families significantly
underperform closed-source counterparts, achieving only approximately 70% of
their performance on temporal progress prediction tasks. Furthermore, we
demonstrate how OpenGVL can serve as a practical tool for automated data
curation and filtering, enabling efficient quality assessment of large-scale
robotics datasets. We release the benchmark along with the complete codebase at
github.com/budzianowski/opengvl{OpenGVL}.