Pense Enquanto Assistir: Memória em Nível de Segmento para Streaming Online em Raciocínio Multiturno com Vídeos em Modelos de Linguagem Multimodais Grandes

Resumo

Os modelos de linguagem grandes multimodais (MLLMs) demonstraram forte desempenho na compreensão de vídeos offline, mas a maioria está limitada à inferência offline ou possui raciocínio online fraco, dificultando a interação multiturno sobre fluxos de vídeo em contínua chegada. Os métodos de streaming existentes normalmente usam um paradigma intercalado de percepção-geração, que impede a percepção e geração concorrentes e leva à decadência precoce da memória à medida que os fluxos crescem, prejudicando a modelagem de dependências de longo alcance. Propomos o Think While Watching, uma estrutura de raciocínio de vídeo em streaming ancorada na memória que preserva memória contínua a nível de segmento durante a interação multiturno. Construímos um conjunto de dados de cadeia de pensamento em três estágios e múltiplas rondas e adotamos uma estratégia de treinamento com estágios correspondentes, enquanto aplicamos causalidade estrita através de uma máscara causal de streaming a nível de segmento e codificação posicional de streaming. Durante a inferência, introduzimos um pipeline eficiente que sobrepõe a observação e o pensamento e seleciona adaptativamente o melhor backend de atenção. Tanto sob protocolos de entrada de streaming de rodada única quanto multiturno, nosso método alcança resultados sólidos. Construído sobre o Qwen3-VL, ele melhora a precisão de rodada única em 2,6% no StreamingBench e em 3,79% no OVO-Bench. No cenário multiturno, mantém o desempenho enquanto reduz os tokens de saída em 56%. O código está disponível em: https://github.com/wl666hhh/Think_While_Watching/

English

Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/

Pense Enquanto Assistir: Memória em Nível de Segmento para Streaming Online em Raciocínio Multiturno com Vídeos em Modelos de Linguagem Multimodais Grandes

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Resumo

Support