ChatPaper.aiChatPaper

StreamGaze: ストリーミング動画における視線誘導型時間推論と能動的理解

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

December 1, 2025
著者: Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal
cs.AI

要旨

ストリーミング動画理解には、時間的に連続するフレームを処理するだけでなく、ARグラスなどの現実的な応用に向けてユーザーの意図を予測する能力がモデルに求められる。既存のストリーミング評価ベンチマークは時間的推論を評価するが、MLLMがストリーミング環境下で人間の注視信号を解釈または活用できるかを測定するものはない。この空白を埋めるため、我々はストリーミング動画においてMLLMが注視情報を時間的・能動的推論にどの程度効果的に活用できるかを評価する初のベンチマーク「StreamGaze」を提案する。StreamGazeは、注視誘導型の過去・現在・能動的タスクを導入し、ストリーミング動画理解を包括的に評価する。これらのタスクは、モデルがリアルタイムの注視情報を用いて移動する注意力を追跡し、過去および現在観測されたフレームのみからユーザー意図を推論できるかを評価する。 StreamGaze構築のため、注視点抽出、領域特化的な視覚的プロンプト生成、スキャンパス構築を経て、エゴセントリック動画と生の注視軌跡を整合させるQA生成パイプラインを開発した。このパイプラインは、人間の知覚ダイナミクスを忠実に反映した時空間的に根拠付けられたQAペアを生成する。全てのStreamGazeタスクにおいて、最先端MLLMと人間の性能には大きな隔たりが観察され、注視に基づく時間的推論、意図モデリング、能動的予測における根本的限界が明らかになった。さらに、注視プロンプト戦略、推論挙動、タスク特有の失敗モードに関する詳細分析を提供し、現在のMLLMが苦戦する理由と将来のモデルが習得すべき能力について深い示唆を与える。全てのデータとコードは公開し、注視誘導型ストリーミング動画理解の継続的研究を支援する。
English
Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.
PDF51December 3, 2025