StreamGaze : Raisonnement Temporel Guidé par le Regard et Compréhension Proactive dans les Vidéos en Flux

papers.abstract

La compréhension vidéo en flux continu exige des modèles qu'ils traitent non seulement les images entrantes temporellement, mais aussi qu'ils anticipent l'intention de l'utilisateur pour des applications réalistes comme les lunettes de réalité augmentée. Si les benchmarks de streaming antérieurs évaluent le raisonnement temporel, aucun ne mesure si les MLLM peuvent interpréter ou exploiter les signaux du regard humain dans un contexte de flux continu. Pour combler cette lacune, nous présentons StreamGaze, le premier benchmark conçu pour évaluer l'efficacité avec laquelle les MLLM utilisent le regard pour le raisonnement temporel et proactif dans les vidéos en streaming. StreamGaze introduit des tâches passées, présentes et proactives guidées par le regard qui évaluent de manière exhaustive la compréhension vidéo en flux continu. Ces tâches évaluent si les modèles peuvent utiliser le regard en temps réel pour suivre l'attention changeante et déduire les intentions de l'utilisateur à partir uniquement des images passées et actuellement observées. Pour construire StreamGaze, nous développons un pipeline de génération de questions-réponses sur vidéo et regard qui aligne les vidéos égocentriques avec les trajectoires brutes du regard via l'extraction de fixations, l'invite visuelle région-spécifique et la construction de scanpaths. Ce pipeline produit des paires question-réponse ancrées spatio-temporellement qui reflètent étroitement la dynamique perceptuelle humaine. Sur toutes les tâches de StreamGaze, nous observons des écarts de performance substantiels entre les MLLM de pointe et les performances humaines, révélant des limitations fondamentales dans le raisonnement temporel basé sur le regard, la modélisation de l'intention et la prédiction proactive. Nous fournissons en outre des analyses détaillées des stratégies d'invite par le regard, des comportements de raisonnement et des modes d'échec spécifiques aux tâches, offrant un aperçu plus profond des raisons pour lesquelles les MLLM actuels peinent et des capacités que les futurs modèles doivent développer. Toutes les données et le code seront publiés publiquement pour soutenir la recherche continue dans la compréhension vidéo en streaming guidée par le regard.

English

Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.

StreamGaze : Raisonnement Temporel Guidé par le Regard et Compréhension Proactive dans les Vidéos en Flux

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

papers.abstract

Support