ChatPaper.aiChatPaper

StreamGaze: Blickgeführte zeitliche Inferenz und proaktives Verständnis in Streaming-Videos

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

December 1, 2025
papers.authors: Daeun Lee, Subhojyoti Mukherjee, Branislav Kveton, Ryan A. Rossi, Viet Dac Lai, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Mohit Bansal
cs.AI

papers.abstract

Das Verständnis von Streaming-Videos erfordert von Modellen nicht nur die Verarbeitung zeitlich eingehender Frames, sondern auch die Antizipation von Nutzerabsichten für realistische Anwendungen wie AR-Brillen. Während bisherige Streaming-Benchmarks zeitliches Reasoning bewerten, misst keine davon, ob MLLMs menschliche Blicksignale in einem Streaming-Szenario interpretieren oder nutzen können. Um diese Lücke zu schließen, führen wir StreamGaze ein, den ersten Benchmark, der entwickelt wurde, um zu evaluieren, wie effektiv MLLMs Blickdaten für zeitliches und proaktives Reasoning in Streaming-Videos nutzen. StreamGaze führt blickgeführte Aufgaben für Vergangenheit, Gegenwart und Proaktion ein, die das Verständnis von Streaming-Videos umfassend bewerten. Diese Aufgaben prüfen, ob Modelle Echtzeit-Blickdaten nutzen können, um sich verändernde Aufmerksamkeit zu verfolgen und Nutzerabsichten nur aus vergangenen und aktuell beobachteten Frames abzuleiten. Um StreamGaze aufzubauen, entwickelten wir eine QA-Generierungspipeline für Blick-Video-Daten, die egocentrische Videos mit Roh-Blickverläufen durch Fixationsextraktion, regionsspezifisches Visual Prompting und Scanpfadkonstruktion in Einklang bringt. Diese Pipeline erzeugt räumlich-zeitlich verankerte QA-Paare, die die menschliche Wahrnehmungsdynamik genau widerspiegeln. Über alle StreamGaze-Aufgaben hinweg beobachten wir erhebliche Leistungslücken zwischen modernsten MLLMs und der menschlichen Leistung, was grundlegende Limitationen in blickbasiertem zeitlichem Reasoning, Intentionsmodellierung und proaktiver Vorhersage aufdeckt. Wir liefern weiterhin detaillierte Analysen von Blick-Prompting-Strategien, Reasoning-Verhalten und aufgabenspezifischen Fehlermodi, die tiefere Einblicke bieten, warum aktuelle MLLMs scheitern und welche Fähigkeiten zukünftige Modelle entwickeln müssen. Alle Daten und Codes werden öffentlich freigegeben, um die weitere Forschung im blickgeführten Verständnis von Streaming-Videos zu unterstützen.
English
Streaming video understanding requires models not only to process temporally incoming frames, but also to anticipate user intention for realistic applications like AR glasses. While prior streaming benchmarks evaluate temporal reasoning, none measure whether MLLMs can interpret or leverage human gaze signals within a streaming setting. To fill this gap, we introduce StreamGaze, the first benchmark designed to evaluate how effectively MLLMs use gaze for temporal and proactive reasoning in streaming videos. StreamGaze introduces gaze-guided past, present, and proactive tasks that comprehensively evaluate streaming video understanding. These tasks assess whether models can use real-time gaze to follow shifting attention and infer user intentions from only past and currently observed frames. To build StreamGaze, we develop a gaze-video QA generation pipeline that aligns egocentric videos with raw gaze trajectories via fixation extraction, region-specific visual prompting, and scanpath construction. This pipeline produces spatio-temporally grounded QA pairs that closely reflect human perceptual dynamics. Across all StreamGaze tasks, we observe substantial performance gaps between state-of-the-art MLLMs and human performance, revealing fundamental limitations in gaze-based temporal reasoning, intention modeling, and proactive prediction. We further provide detailed analyses of gaze-prompting strategies, reasoning behaviors, and task-specific failure modes, offering deeper insight into why current MLLMs struggle and what capabilities future models must develop. All data and code will be publicly released to support continued research in gaze-guided streaming video understanding.
PDF51December 3, 2025