Pense Enquanto Assistir: Memória em Nível de Segmento para Streaming Online em Raciocínio Multiturno com Vídeos em Modelos de Linguagem Multimodais Grandes
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models
March 12, 2026
Autores: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao
cs.AI
Resumo
Os modelos de linguagem grandes multimodais (MLLMs) demonstraram forte desempenho na compreensão de vídeos offline, mas a maioria está limitada à inferência offline ou possui raciocínio online fraco, dificultando a interação multiturno sobre fluxos de vídeo em contínua chegada. Os métodos de streaming existentes normalmente usam um paradigma intercalado de percepção-geração, que impede a percepção e geração concorrentes e leva à decadência precoce da memória à medida que os fluxos crescem, prejudicando a modelagem de dependências de longo alcance. Propomos o Think While Watching, uma estrutura de raciocínio de vídeo em streaming ancorada na memória que preserva memória contínua a nível de segmento durante a interação multiturno. Construímos um conjunto de dados de cadeia de pensamento em três estágios e múltiplas rondas e adotamos uma estratégia de treinamento com estágios correspondentes, enquanto aplicamos causalidade estrita através de uma máscara causal de streaming a nível de segmento e codificação posicional de streaming. Durante a inferência, introduzimos um pipeline eficiente que sobrepõe a observação e o pensamento e seleciona adaptativamente o melhor backend de atenção. Tanto sob protocolos de entrada de streaming de rodada única quanto multiturno, nosso método alcança resultados sólidos. Construído sobre o Qwen3-VL, ele melhora a precisão de rodada única em 2,6% no StreamingBench e em 3,79% no OVO-Bench. No cenário multiturno, mantém o desempenho enquanto reduz os tokens de saída em 56%. O código está disponível em: https://github.com/wl666hhh/Think_While_Watching/
English
Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/