PROGRESSLM: Rumo ao Raciocínio de Progresso em Modelos de Visão e Linguagem

Resumo

A estimativa do progresso de uma tarefa requer raciocínio sobre dinâmicas de longo prazo, e não apenas o reconhecimento de conteúdo visual estático. Embora os Modelos de Visão e Linguagem (VLMs) modernos se destaquem em descrever o que é visível, permanece incerto se eles podem inferir o quanto uma tarefa progrediu a partir de observações parciais. Para isso, apresentamos o Progress-Bench, um benchmark para avaliar sistematicamente o raciocínio sobre progresso em VLMs. Além da avaliação comparativa, exploramos ainda um paradigma de raciocínio sobre progresso em duas etapas, inspirado no humano, por meio tanto de *prompting* sem treinamento quanto de uma abordagem baseada em treinamento utilizando o conjunto de dados curado ProgressLM-45K. Experimentos com 14 VLMs mostram que a maioria dos modelos ainda não está preparada para a estimativa de progresso de tarefas, exibindo sensibilidade à modalidade de demonstração e a mudanças de ponto de vista, além de um desempenho fraco no tratamento de casos sem resposta. Embora o *prompting* sem treinamento que impõe um raciocínio estruturado sobre o progresso produza ganhos limitados e dependentes do modelo, o ProgressLM-3B, baseado em treinamento, alcança melhorias consistentes mesmo em uma escala de modelo pequena, apesar de ter sido treinado em um conjunto de tarefas completamente disjunto das tarefas de avaliação. Análises adicionais revelam padrões característicos de erro e esclarecem quando e por que o raciocínio sobre o progresso tem sucesso ou falha.

English

Estimating task progress requires reasoning over long-horizon dynamics rather than recognizing static visual content. While modern Vision-Language Models (VLMs) excel at describing what is visible, it remains unclear whether they can infer how far a task has progressed from partial observations. To this end, we introduce Progress-Bench, a benchmark for systematically evaluating progress reasoning in VLMs. Beyond benchmarking, we further explore a human-inspired two-stage progress reasoning paradigm through both training-free prompting and training-based approach based on curated dataset ProgressLM-45K. Experiments on 14 VLMs show that most models are not yet ready for task progress estimation, exhibiting sensitivity to demonstration modality and viewpoint changes, as well as poor handling of unanswerable cases. While training-free prompting that enforces structured progress reasoning yields limited and model-dependent gains, the training-based ProgressLM-3B achieves consistent improvements even at a small model scale, despite being trained on a task set fully disjoint from the evaluation tasks. Further analyses reveal characteristic error patterns and clarify when and why progress reasoning succeeds or fails.

PROGRESSLM: Rumo ao Raciocínio de Progresso em Modelos de Visão e Linguagem

PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

Resumo

Support