Denk beim Zuschauen: Online-Streaming-Segmentgedächtnis für mehrschrittige Videobegründung in multimodalen großen Sprachmodellen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben bei der Offline-Videoverständnis starke Leistungen gezeigt, sind jedoch meist auf Offline-Inferenz beschränkt oder verfügen über schwache Online-Fähigkeiten, was Mehrfachinteraktionen über kontinuierlich eintreffende Videostreams erschwert. Bestehende Streaming-Methoden verwenden typischerweise ein verschachteltes Wahrnehmungs-Generierungs-Paradigma, das gleichzeitige Wahrnehmung und Generierung verhindert und bei wachsenden Streams zu frühzeitigem Gedächtnisverfall führt, was die Modellierung langreichweitiger Abhängigkeiten beeinträchtigt. Wir schlagen Think While Watching vor, einen speicherverankerten Streaming-Videoargumentationsframework, der während der Mehrfachinteraktion kontinuierlichen segmentbasierten Speicher bewahrt. Wir erstellen einen dreistufigen, mehrrundigen Chain-of-Thought-Datensatz und wenden eine stufenangepasste Trainingsstrategie an, während wir durch eine segmentbasierte Streaming-Kausalmaske und Streaming-Positionskodierung strikte Kausalität erzwingen. Während der Inferenz führen wir eine effiziente Pipeline ein, die Betrachten und Denken überlappt und adaptiv die beste Attention-Backend auswählt. Unter sowohl Einfachrunden- als auch Mehrfachrunden-Streaming-Eingabeprotokollen erzielt unsere Methode starke Ergebnisse. Auf Qwen3-VL aufbauend verbessert sie die Einfachrunden-Genauigkeit um 2,6 % auf StreamingBench und um 3,79 % auf OVO-Bench. Im Mehrfachrunden-Setting hält sie die Leistung bei, während sie die Ausgabetokens um 56 % reduziert. Code ist verfügbar unter: https://github.com/wl666hhh/Think_While_Watching/

English

Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/

Denk beim Zuschauen: Online-Streaming-Segmentgedächtnis für mehrschrittige Videobegründung in multimodalen großen Sprachmodellen

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Zusammenfassung

Support