OpenGVL — Бенчмаркинг визуального временного прогресса для курирования данных
OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
September 22, 2025
Авторы: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas
cs.AI
Аннотация
Недостаток данных остается одним из наиболее ограничивающих факторов для прогресса в робототехнике. Однако объем доступных данных в этой области растет экспоненциально, создавая новые возможности для масштабного использования данных. Надежное прогнозирование временного завершения задач может помочь автоматически аннотировать и систематизировать эти данные в больших масштабах. Недавно был предложен подход Generative Value Learning (GVL), который использует знания, заложенные в моделях "визуальный язык" (VLMs), для прогнозирования прогресса задач на основе визуальных наблюдений. На основе GVL мы предлагаем OpenGVL — всеобъемлющий бенчмарк для оценки прогресса задач в разнообразных сложных манипуляционных задачах, включающих как роботизированные, так и человеческие воплощения. Мы оцениваем возможности общедоступных открытых базовых моделей, показывая, что семейства открытых моделей значительно уступают закрытым аналогам, достигая лишь примерно 70% их производительности в задачах прогнозирования временного прогресса. Кроме того, мы демонстрируем, как OpenGVL может служить практическим инструментом для автоматизированной систематизации и фильтрации данных, обеспечивая эффективную оценку качества крупномасштабных наборов данных в робототехнике. Мы публикуем бенчмарк вместе с полным кодом на github.com/budzianowski/opengvl{OpenGVL}.
English
Data scarcity remains one of the most limiting factors in driving progress in
robotics. However, the amount of available robotics data in the wild is growing
exponentially, creating new opportunities for large-scale data utilization.
Reliable temporal task completion prediction could help automatically annotate
and curate this data at scale. The Generative Value Learning (GVL) approach was
recently proposed, leveraging the knowledge embedded in vision-language models
(VLMs) to predict task progress from visual observations. Building upon GVL, we
propose OpenGVL, a comprehensive benchmark for estimating task progress across
diverse challenging manipulation tasks involving both robotic and human
embodiments. We evaluate the capabilities of publicly available open-source
foundation models, showing that open-source model families significantly
underperform closed-source counterparts, achieving only approximately 70% of
their performance on temporal progress prediction tasks. Furthermore, we
demonstrate how OpenGVL can serve as a practical tool for automated data
curation and filtering, enabling efficient quality assessment of large-scale
robotics datasets. We release the benchmark along with the complete codebase at
github.com/budzianowski/opengvl{OpenGVL}.