ChatPaper.aiChatPaper

Denk Terwijl Je Kijkt: Geheugen op Segmentniveau voor Online Streaming bij Multiturn Videoredenering in Multimodale Grote Taalmodellen

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

March 12, 2026
Auteurs: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLM's) vertonen sterke prestaties bij offline videobegrip, maar de meeste zijn beperkt tot offline inferentie of hebben een zwakke online redeneercapaciteit, wat multi-turn interactie over continu binnenkomende videostreams bemoeilijkt. Bestaande streamingmethoden gebruiken typisch een afwisselend perceptie-generatieparadigma, wat gelijktijdige perceptie en generatie verhindert en tot vroegtijdig geheugenverval leidt naarmate streams groeien, wat de modellering van langeafstandsafhankelijkheden schaadt. Wij stellen Think While Watching voor, een geheugenverankerd streamingvideoredeneerkader dat continu geheugen op segmentniveau bewaart tijdens multi-turn interactie. Wij bouwen een driedelig, multi-round chain-of-thought-dataset en hanteren een fase-afgestemde trainingsstrategie, waarbij strikte causaliteit wordt afgedwongen via een streaming causaal masker op segmentniveau en streaming positionele codering. Tijdens inferentie introduceren we een efficiënte pijplijn die kijken en denken overlapt en adaptief de beste aandacht-backend selecteert. Onder zowel single-round als multi-round streaming inputprotocollen behaalt onze methode sterke resultaten. Gebouwd op Qwen3-VL, verbetert het de single-round nauwkeurigheid met 2,6% op StreamingBench en met 3,79% op OVO-Bench. In de multi-round setting behoudt het de prestaties terwijl het uitvoertokens met 56% reduceert. Code is beschikbaar op: https://github.com/wl666hhh/Think_While_Watching/
English
Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/
PDF82March 25, 2026