StreamGaze: Razonamiento Temporal Guiado por la Mirada y Comprensión Proactiva en Videos en Streaming

Resumen

La comprensión de vídeo en streaming requiere que los modelos no solo procesen fotogramas entrantes temporalmente, sino que también anticipen la intención del usuario para aplicaciones realistas como las gafas de realidad aumentada. Si bien los benchmarks de streaming anteriores evalúan el razonamiento temporal, ninguno mide si los MLLM pueden interpretar o aprovechar las señales de la mirada humana en un entorno de streaming. Para llenar este vacío, presentamos StreamGaze, el primer benchmark diseñado para evaluar cuán efectivamente los MLLM utilizan la mirada para el razonamiento temporal y proactivo en vídeos en streaming. StreamGaze introduce tareas pasadas, presentes y proactivas guiadas por la mirada que evalúan integralmente la comprensión de vídeo en streaming. Estas tareas evalúan si los modelos pueden utilizar la mirada en tiempo real para seguir la atención cambiante e inferir las intenciones del usuario solo a partir de los fotogramas observados en el pasado y actualmente. Para construir StreamGaze, desarrollamos un pipeline de generación de preguntas y respuestas (QA) de vídeo y mirada que alinea vídeos en primera persona con trayectorias de mirada crudas mediante extracción de fijaciones, *prompting* visual específico de regiones y construcción de *scanpaths*. Este pipeline produce pares de QA espaciotemporalmente fundamentados que reflejan estrechamente la dinámica perceptual humana. En todas las tareas de StreamGaze, observamos brechas sustanciales de rendimiento entre los MLLM más avanzados y el rendimiento humano, revelando limitaciones fundamentales en el razonamiento temporal basado en la mirada, el modelado de intenciones y la predicción proactiva. Además, proporcionamos análisis detallados de las estrategias de *prompting* con mirada, los comportamientos de razonamiento y los modos de fallo específicos de cada tarea, ofreciendo una visión más profunda de por qué los MLLM actuales tienen dificultades y qué capacidades deben desarrollar los modelos futuros. Todos los datos y código se publicarán públicamente para apoyar la investigación continua en la comprensión de vídeo en streaming guiada por la mirada.

English

Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.

StreamGaze: Razonamiento Temporal Guiado por la Mirada y Comprensión Proactiva en Videos en Streaming

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

Resumen

Support