ChatPaper.aiChatPaper

StreamGaze: Tijdelijke Redenering met Oogvolgleiding en Proactief Begrip in Streamingvideo's

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

December 1, 2025
Auteurs: Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal
cs.AI

Samenvatting

Streaming video-inzicht vereist van modellen niet alleen dat ze temporeel binnenkomende frames verwerken, maar ook dat ze gebruikersintentie anticiperen voor realistische toepassingen zoals AR-brillen. Hoewel bestaande streamingbenchmarks temporeel redeneren evalueren, meten er geen enkele of MLLM's menselijke bliksignalen kunnen interpreteren of benutten binnen een streamingcontext. Om deze leemte te vullen, introduceren we StreamGaze, de eerste benchmark die is ontworpen om te evalueren hoe effectief MLLM's blikinformatie gebruiken voor temporeel en proactief redeneren in streamingvideo's. StreamGaze introduceert blikgestuurde taken voor het verleden, het heden en proactieve anticipatie die het streaming video-inzicht uitgebreid evalueren. Deze taken beoordelen of modellen realtime blikdata kunnen gebruiken om verschuivende aandacht te volgen en gebruikersintenties af te leiden vanuit uitsluitend reeds waargenomen en huidige frames. Om StreamGaze op te bouwen, ontwikkelden we een blik-video QA-generatiepijplijn die egocentrische video's aligneert met ruwe bliktrajectorieën via fixatie-extractie, regiospecifieke visuele prompting en scanpadconstructie. Deze pijplijn produceert spatio-temporeel verankerde QA-paren die nauw aansluiten bij menselijke perceptiedynamiek. Over alle StreamGaze-taken heen observeren we substantiële prestatiekloof tussen state-of-the-art MLLM's en menselijke prestaties, wat fundamentele beperkingen blootlegt in op blik gebaseerd temporeel redeneren, intentiemodellering en proactieve voorspelling. We bieden verder gedetailleerde analyses van blik-promptingstrategieën, redeneergedrag en taakspecifieke foutmodi, wat dieper inzicht biedt in waarom huidige MLLM's worstelen en welke capaciteiten toekomstige modellen moeten ontwikkelen. Alle data en code worden openbaar vrijgegeven om voortgezet onderzoek in blikgestuurd streaming video-inzicht te ondersteunen.
English
Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.
PDF51December 3, 2025