ChatPaper.aiChatPaper

StreamGaze: Ragionamento Temporale Guidato dallo Sguardo e Comprensione Proattiva nei Video in Streaming

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

December 1, 2025
Autori: Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal
cs.AI

Abstract

La comprensione di video in streaming richiede ai modelli non solo di elaborare fotogrammi in ingresso temporalmente, ma anche di anticipare l'intenzione dell'utente per applicazioni realistiche come gli occhiali per la realtà aumentata. Mentre i benchmark di streaming precedenti valutano il ragionamento temporale, nessuno misura se i Modelli Linguistici Multimodali (MLLM) possono interpretare o sfruttare i segnali dello sguardo umano in un contesto di streaming. Per colmare questa lacuna, introduciamo StreamGaze, il primo benchmark progettato per valutare quanto efficacemente gli MLLM utilizzano lo sguardo per il ragionamento temporale e proattivo in video in streaming. StreamGaze introduce compiti proattivi, presenti e passati guidati dallo sguardo che valutano in modo completo la comprensione dei video in streaming. Questi compiti valutano se i modelli possono utilizzare lo sguardo in tempo reale per seguire l'attenzione che si sposta e dedurre le intenzioni dell'utente partendo solo dai fotogrammi passati e attualmente osservati. Per costruire StreamGaze, sviluppiamo una pipeline di generazione di Domande e Risposte (QA) per video-sguardo che allinea video in prima persona con traiettorie grezze dello sguardo tramite estrazione delle fissazioni, prompt visivi specifici per regione e costruzione di scanpath. Questa pipeline produce coppie QA ancorate spazio-temporalmente che riflettono fedelmente le dinamiche percettive umane. In tutti i compiti di StreamGaze, osserviamo divari prestazionali sostanziali tra gli MLLM all'avanguardia e le prestazioni umane, rivelando limitazioni fondamentali nel ragionamento temporale basato sullo sguardo, nella modellazione delle intenzioni e nella previsione proattiva. Forniamo inoltre analisi dettagliate delle strategie di prompting dello sguardo, dei comportamenti di ragionamento e delle modalità di errore specifiche per compito, offrendo una comprensione più profonda del perché gli attuali MLLM facciano fatica e di quali capacità i modelli futuri debbano sviluppare. Tutti i dati e il codice saranno rilasciati pubblicamente per supportare la ricerca continua nella comprensione dei video in streaming guidata dallo sguardo.
English
Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.
PDF51December 3, 2025