Pensar Mientras Miras: Memoria Segmentaria en Streaming en Línea para Razonamiento Multiturno en Video con Modelos de Lenguaje Multimodales Grandes
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models
March 12, 2026
Autores: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao
cs.AI
Resumen
Los modelos de lenguaje multimodal (MLLM) han demostrado un gran rendimiento en la comprensión de vídeos offline, pero la mayoría se limitan a la inferencia offline o tienen un razonamiento online débil, lo que dificulta la interacción multiturno sobre flujos de vídeo que llegan continuamente. Los métodos de streaming existentes suelen utilizar un paradigma de percepción-generación intercalado, lo que impide la percepción y generación concurrentes y provoca una degradación temprana de la memoria a medida que crecen los flujos, perjudicando el modelado de dependencias de largo alcance. Proponemos Think While Watching, un marco de razonamiento de vídeo en streaming anclado en memoria que preserva una memoria continua a nivel de segmento durante la interacción multiturno. Construimos un conjunto de datos de cadena de pensamiento multironda de tres etapas y adoptamos una estrategia de entrenamiento adaptada por etapas, mientras aplicamos una causalidad estricta mediante una máscara causal de streaming a nivel de segmento y una codificación posicional de streaming. Durante la inferencia, introducimos una canalización eficiente que superpone la observación y el pensamiento y selecciona de forma adaptativa el mejor backend de atención. Bajo protocolos de entrada en streaming tanto de ronda única como multironda, nuestro método logra resultados sólidos. Basado en Qwen3-VL, mejora la precisión de ronda única en un 2.6% en StreamingBench y en un 3.79% en OVO-Bench. En el entorno multironda, mantiene el rendimiento mientras reduce los tokens de salida en un 56%. El código está disponible en: https://github.com/wl666hhh/Think_While_Watching/
English
Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/