PROGRESSLM: 비전-언어 모델의 진행 추론 방향으로
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models
January 21, 2026
저자: Jianshu Zhang, Chengxuan Qian, Haosen Sun, Haoran Lu, Dingcheng Wang, Letian Xue, Han Liu
cs.AI
초록
작업 진행도 추정은 정적인 시각적 내용을 인식하는 것이 아닌 장기적 역학에 대한 추론을 필요로 합니다. 현대 시각-언어 모델(VLM)은 가시적인 내용을 설명하는 데 뛰어나지만, 부분적 관찰로부터 작업이 얼마나 진행되었는지를 추론할 수 있는지는 여전히 불분명합니다. 이를 위해 우리는 VLM의 진행 추론을 체계적으로 평가하기 위한 벤치마크인 Progress-Bench를 소개합니다. 벤치마킹을 넘어서, 우리는 훈련이 필요 없는 프롬프팅 방식과 정제된 데이터셋 ProgressLM-45K를 기반으로 한 훈련 기반 방식을 통해 인간에서 영감을 받은 2단계 진행 추론 패러다임을 추가로 탐구합니다. 14개 VLM에 대한 실험 결과, 대부분의 모델이 데모 방식과 시점 변화에 민감하고 응답 불가 경우를 제대로 처리하지 못하는 등 작업 진행도 추정에 아직 준비되지 않았음을 보여줍니다. 구조화된 진행 추론을 강제하는 훈련 없는 프롬프팅은 제한적이고 모델에 종속적인 성능 향상을 가져온 반면, 소규모 모델인 훈련 기반 ProgressLM-3B는 평가 작업과 완전히 분리된 작업 세트에서 훈련되었음에도 불구하고 일관된 개선을 달성했습니다. 추가 분석은 특징적인 오류 패턴을 밝히고 진행 추론이 성공하거나 실패하는 시점과 이유를 명확히 합니다.
English
Estimating task progress requires reasoning over long-horizon dynamics rather than recognizing static visual content. While modern Vision-Language Models (VLMs) excel at describing what is visible, it remains unclear whether they can infer how far a task has progressed from partial observations. To this end, we introduce Progress-Bench, a benchmark for systematically evaluating progress reasoning in VLMs. Beyond benchmarking, we further explore a human-inspired two-stage progress reasoning paradigm through both training-free prompting and training-based approach based on curated dataset ProgressLM-45K. Experiments on 14 VLMs show that most models are not yet ready for task progress estimation, exhibiting sensitivity to demonstration modality and viewpoint changes, as well as poor handling of unanswerable cases. While training-free prompting that enforces structured progress reasoning yields limited and model-dependent gains, the training-based ProgressLM-3B achieves consistent improvements even at a small model scale, despite being trained on a task set fully disjoint from the evaluation tasks. Further analyses reveal characteristic error patterns and clarify when and why progress reasoning succeeds or fails.