다중 모달 비디오 이해에서 시각 상태 추적 벤치마킹
Benchmarking Visual State Tracking in Multimodal Video Understanding
June 2, 2026
저자: Sihyun Yu, Nanye Ma, Pinzhi Huang, Hyunseok Lee, Shusheng Yang, June Suk Choi, Ellis Brown, Oscar Michel, Boyang Zheng, Jinwoo Shin, Saining Xie
cs.AI
초록
비디오 이해는 고립된 순간들을 인식하는 것 이상을 요구하는데, 인간은 시간에 걸쳐 개체, 상태, 사건을 지속적으로 추적하기 때문이다. 이러한 시각적 상태 추적 능력은 비디오 이해에 필수적이지만, 현재의 다중모달 대규모 언어 모델(MLLM) 평가에서는 충분히 탐구되지 않고 있다. 우리는 MLLM의 시각적 상태 추적을 진단하기 위해 설계된 비디오 기반 벤치마크인 VSTAT(Visual STAte Tracking benchmark)을 소개한다. VSTAT은 합성 및 실제 비디오에서 추출한 834개의 클립과 1,500개의 질문으로 구성되며, 이 질문들은 단일 프레임이나 짧은 구간만으로는 답할 수 없어 전체 비디오 스트림에 걸친 지속적인 지각과 사건 통합을 요구한다. 기존 비디오 벤치마크에서 강력한 성능을 보임에도 불구하고, 최신 MLLM은 인간에 훨씬 못 미치는 성능을 보이며 정답 사전 기반(answer-prior baselines)보다 약간 나은 수준에 불과하다. 이 격차를 분석하기 위해, 우리는 MLLM의 사고 추적(thinking traces)과 기본 비디오 스트림을 비교하여 MLLM이 VSTAT에서 왜 그리고 언제 실패하는지 이해한다. 우리는 MLLM이 텍스트에서는 올바르게 추론하고 추적하지만, 추적해야 할 사건을 시각적으로 지각하는 데 실패한다는 것을 발견한다. 마지막으로, 예비 평가에 따르면 MLLM 기반 비디오 에이전트 및 코딩 에이전트를 포함한 최근의 에이전트적 접근 방식이 이러한 실패를 쉽게 해결하지 못하며, 여전히 VSTAT에서 부족한 성능을 보인다.
English
Understanding a video requires more than recognizing isolated moments, as humans continuously track entities, states, and events over time. This capacity for visual state tracking is fundamental to video understanding, yet remains underexplored in current evaluations of Multimodal Large Language Models (MLLMs). We introduce Visual STAte Tracking benchmark (VSTAT), a video-based benchmark designed to diagnose visual state tracking in MLLMs. VSTAT consists of 834 clips drawn from both synthetic and real-world videos, paired with 1,500 questions that cannot be answered from any single frame or short segment, requiring continuous perception and integration of events across the entire video stream. Despite their strong performance on existing video benchmarks, we find that state-of-the-art MLLMs perform far below humans and only modestly above answer-prior baselines. To analyze this gap, we compare MLLMs' thinking traces with the underlying video stream to understand why and when MLLMs fail on VSTAT. We find that MLLMs reason and track correctly in text, but fail at visually perceiving the events they need to track. Finally, our preliminary evaluation suggests that recent agentic approaches, including MLLM-based video agents and coding agents, do not readily resolve these failures, still falling short on VSTAT.