StreamGaze: Raciocínio Temporal Guiado pelo Olhar e Compreensão Proativa em Vídeos em Streaming

Resumo

A compreensão de vídeo em streaming exige que os modelos não apenas processem quadros recebidos temporalmente, mas também antecipem a intenção do usuário para aplicações realistas como óculos de realidade aumentada. Embora benchmarks de streaming anteriores avaliem o raciocínio temporal, nenhum mede se os MLLMs (Modelos de Linguagem Multimodais de Grande Porte) podem interpretar ou aproveitar sinais de olhar humano em um contexto de streaming. Para preencher essa lacuna, introduzimos o StreamGaze, o primeiro benchmark projetado para avaliar quão efetivamente os MLLMs usam o olhar para o raciocínio temporal e proativo em vídeos em streaming. O StreamGaze introduz tarefas proativas, do presente e guiadas pelo olhar do passado, que avaliam de forma abrangente a compreensão de vídeo em streaming. Essas tarefas avaliam se os modelos podem usar o olhar em tempo real para acompanhar a mudança de atenção e inferir as intenções do usuário a partir apenas dos quadros passados e atualmente observados. Para construir o StreamGaze, desenvolvemos um pipeline de geração de Perguntas e Respostas (QA) para vídeos com olhar, que alinha vídeos egocêntricos com trajetórias brutas do olhar por meio da extração de fixações, *prompting* visual específico por região e construção de *scanpaths*. Este pipeline produz pares de QA fundamentados espaço-temporalmente que refletem de perto a dinâmica perceptual humana. Em todas as tarefas do StreamGaze, observamos lacunas substanciais de desempenho entre os MLLMs de última geração e o desempenho humano, revelando limitações fundamentais no raciocínio temporal baseado no olhar, na modelagem de intenção e na previsão proativa. Fornecemos ainda análises detalhadas das estratégias de *prompting* com olhar, comportamentos de raciocínio e modos de falha específicos por tarefa, oferecendo uma visão mais profunda sobre por que os MLLMs atuais têm dificuldades e quais capacidades os modelos futuros devem desenvolver. Todos os dados e códigos serão disponibilizados publicamente para apoiar a pesquisa contínua na compreensão de vídeo em streaming guiada pelo olhar.

English

Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.

StreamGaze: Raciocínio Temporal Guiado pelo Olhar e Compreensão Proativa em Vídeos em Streaming

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

Resumo

Support