Pensa Mentre Guardi: Memoria a Livello di Segmento per lo Streaming Online nel Ragionamento Video Multi-Turn per Modelli Linguistici Multimodali di Grandi Dimensioni

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato prestazioni solide nella comprensione video offline, ma la maggior parte è limitata all'inferenza offline o possiede capacità di ragionamento online deboli, rendendo difficile l'interazione multi-turno su flussi video in continuo arrivo. I metodi di streaming esistenti utilizzano tipicamente un paradigma di percezione-generazione intervallato, che impedisce la percezione e la generazione concorrenti e porta a un decadimento precoce della memoria con la crescita dei flussi, danneggiando la modellazione delle dipendenze a lungo raggio. Proponiamo Think While Watching (Pensa Mentre Guardi), un framework di ragionamento video in streaming ancorato alla memoria che preserva una memoria continua a livello di segmento durante l'interazione multi-turno. Costruiamo un dataset a catena del pensiero (chain-of-thought) multi-round in tre stadi e adottiamo una strategia di addestramento abbinata agli stadi, applicando al contempo una causalità rigorosa attraverso una maschera causale di streaming a livello di segmento e una codifica posizionale di streaming. Durante l'inferenza, introduciamo una pipeline efficiente che sovrappone la fase di "guardare" e "pensare" e seleziona adattivamente il backend di attenzione migliore. Sotto protocolli di input in streaming sia a round singolo che multi-round, il nostro metodo ottiene risultati solidi. Basato su Qwen3-VL, migliora l'accuratezza a round singolo del 2.6% su StreamingBench e del 3.79% su OVO-Bench. Nell'impostazione multi-round, mantiene le prestazioni riducendo i token di output del 56%. Il codice è disponibile all'indirizzo: https://github.com/wl666hhh/Think_While_Watching/

English

Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/

Pensa Mentre Guardi: Memoria a Livello di Segmento per lo Streaming Online nel Ragionamento Video Multi-Turn per Modelli Linguistici Multimodali di Grandi Dimensioni

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Abstract

Support