ChatPaper.aiChatPaper

StreamGaze: 스트리밍 비디오에서 시선 유도 시간적 추론 및 사전 예측적 이해

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

December 1, 2025
저자: Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal
cs.AI

초록

스트리밍 비디오 이해는 모델이 시간적으로 유입되는 프레임을 처리할 뿐만 아니라 AR 글래스와 같은 실용적인 애플리케이션을 위해 사용자 의도를 예측할 수 있어야 합니다. 기존 스트리밍 벤치마크는 시간적 추론 능력을 평가하지만, MLLM이 스트리밍 환경에서 인간의 시선 신호를 해석하거나 활용할 수 있는지 측정하는 것은 없었습니다. 이러한 공백을 메우기 위해 우리는 스트리밍 비디오에서 MLLM이 시선 정보를 얼마나 효과적으로 시간적 및 선제적 추론에 사용하는지 평가하기 위한 최초의 벤치마크인 StreamGaze를 소개합니다. StreamGaze는 스트리밍 비디오 이해를 종합적으로 평가하는 시선 기반 과거, 현재, 선제적 과제를 도입합니다. 이러한 과제들은 모델이 실시간 시선 정보를 사용하여 변화하는 주의를 따라가고, 과거 및 현재 관찰된 프레임만으로 사용자 의도를 추론할 수 있는지 평가합니다. StreamGaze를 구축하기 위해 우리는 시선 고정 추출, 영역 특화 시각 프롬프팅, 주시 경로 구성을 통해 1인칭 비디오와 원시 시선 궤적을 정렬하는 시선-비디오 질의응답 생성 파이프라인을 개발했습니다. 이 파이프라인은 인간의 인지 역동성을 밀접하게 반영하는 시공간적으로 근거 있는 QA 쌍을 생성합니다. 모든 StreamGaze 과제에서 최첨단 MLLM과 인간 성능 간에 상당한 성능 격차가 관찰되며, 이는 시선 기반 시간적 추론, 의도 모델링 및 선제적 예측 분야의 근본적인 한계를 드러냅니다. 우리는 더 나아가 시선 프롬프팅 전략, 추론 행동, 과제 특화 실패 모드에 대한 상세한 분석을 제공하여 현재 MLLM이 어려움을 겪는 이유와 향후 모델이 개발해야 할 능력에 대한 깊은 통찰을 제시합니다. 모든 데이터와 코드는 시선 기반 스트리밍 비디오 이해 연구의 지속적 발전을 지원하기 위해 공개될 예정입니다.
English
Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.
PDF51December 3, 2025