StreamGaze: Временное рассуждение с управлением взглядом и проактивное понимание в потоковом видео
StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
December 1, 2025
Авторы: Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal
cs.AI
Аннотация
Понимание потокового видео требует от моделей не только обработки временно поступающих кадров, но и прогнозирования намерений пользователя для реалистичных приложений, таких как AR-очки. Хотя существующие потоковые бенчмарки оценивают временные рассуждения, ни один из них не измеряет, способны ли MLLM интерпретировать или использовать сигналы человеческого взгляда в потоковом режиме. Чтобы заполнить этот пробел, мы представляем StreamGaze — первый бенчмарк, разработанный для оценки того, насколько эффективно MLLM используют взгляд для временных и проактивных рассуждений в потоковых видео. StreamGaze вводит управляемые взглядом задачи по прошлому, настоящему и проактивные задачи, которые всесторонне оценивают понимание потокового видео. Эти задачи оценивают, могут ли модели использовать взгляд в реальном времени для отслеживания shifting внимания и вывода намерений пользователя только на основе прошлых и текущих наблюдаемых кадров. Для создания StreamGaze мы разработали конвейер генерации вопросно-ответных пар (QA) для видео со взглядом, который согласовывает эгоцентричные видео с необработанными траекториями взгляда посредством экстракции фиксаций, визуального prompting для конкретных регионов и построения scanpath. Этот конвейер производит пространственно-временно обоснованные QA-пары, которые тесно отражают динамику человеческого восприятия. Во всех задачах StreamGaze мы наблюдаем существенный разрыв в производительности между передовыми MLLM и человеческими показателями, выявляя фундаментальные ограничения во временных рассуждениях на основе взгляда, моделировании намерений и проактивном прогнозировании. Мы также предоставляем детальный анализ стратегий prompting взглядом, моделей рассуждений и специфических для задач типов ошибок, предлагая более глубокое понимание того, почему современные MLLM испытывают трудности и какие возможности должны развивать будущие модели. Все данные и код будут публично выпущены для поддержки дальнейших исследований в области понимания потокового видео с управлением взглядом.
English
Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.