PROGRESSLM: Verso il Ragionamento sul Progresso nei Modelli Visione-Linguaggio

Abstract

La stima dello stato di avanzamento di un compito richiede un ragionamento sulle dinamiche a lungo orizzonte piuttosto che il riconoscimento di contenuti visivi statici. Sebbene i moderni Modelli Visione-Linguaggio (VLM) eccellano nel descrivere ciò che è visibile, non è ancora chiaro se possano dedurre quanto un compito sia progredito a partire da osservazioni parziali. A tal fine, introduciamo Progress-Bench, un benchmark per valutare sistematicamente il ragionamento sull'avanzamento nei VLM. Oltre al benchmarking, esploriamo ulteriormente un paradigma di ragionamento sull'avanzamento ispirato all'uomo e articolato in due fasi, attraverso sia un approccio *training-free* basato su *prompting* sia un approccio basato su addestramento che utilizza il dataset curato ProgressLM-45K. Esperimenti su 14 VLM mostrano che la maggior parte dei modelli non è ancora pronta per la stima dello stato di avanzamento, mostrando sensibilità alla modalità di dimostrazione e ai cambiamenti di punto di vista, oltre a una scarsa gestione dei casi non risolvibili. Sebbene il *prompting* *training-free* che impone un ragionamento strutturato sull'avanzamento produca miglioramenti limitati e dipendenti dal modello, il modello addestrato ProgressLM-3B ottiene miglioramenti consistenti anche con una scala ridotta, nonostante sia stato addestrato su un insieme di compiti completamente disgiunto da quelli di valutazione. Ulteriori analisi rivelano modelli caratteristici di errore e chiariscono quando e perché il ragionamento sull'avanzamento ha successo o fallisce.

English

Estimating task progress requires reasoning over long-horizon dynamics rather than recognizing static visual content. While modern Vision-Language Models (VLMs) excel at describing what is visible, it remains unclear whether they can infer how far a task has progressed from partial observations. To this end, we introduce Progress-Bench, a benchmark for systematically evaluating progress reasoning in VLMs. Beyond benchmarking, we further explore a human-inspired two-stage progress reasoning paradigm through both training-free prompting and training-based approach based on curated dataset ProgressLM-45K. Experiments on 14 VLMs show that most models are not yet ready for task progress estimation, exhibiting sensitivity to demonstration modality and viewpoint changes, as well as poor handling of unanswerable cases. While training-free prompting that enforces structured progress reasoning yields limited and model-dependent gains, the training-based ProgressLM-3B achieves consistent improvements even at a small model scale, despite being trained on a task set fully disjoint from the evaluation tasks. Further analyses reveal characteristic error patterns and clarify when and why progress reasoning succeeds or fails.

PROGRESSLM: Verso il Ragionamento sul Progresso nei Modelli Visione-Linguaggio

PROGRESSLM: Towards Progress Reasoning in Vision-Language Models

Abstract

Support