Penser en Regardant : Mémoire Segmentaire en Streaming en Ligne pour le Raisonnement Vidéo Multi-Tours dans les Modèles de Langage Multimodaux de Grande Taille
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models
March 12, 2026
Auteurs: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao
cs.AI
Résumé
Les modèles de traitement du langage multimodal (MLLM) démontrent d'excellentes performances pour la compréhension vidéo hors ligne, mais la plupart se limitent à l'inférence hors ligne ou possèdent un faible raisonnement en temps réel, rendant difficile l'interaction multi-tours sur des flux vidéo continus. Les méthodes de streaming existantes utilisent généralement un paradigme perception-génération entrelacé, qui empêche la perception et la génération concurrentes et entraîne une dégradation précoce de la mémoire à mesure que les flux s'allongent, nuisant à la modélisation des dépendances à long terme. Nous proposons Think While Watching, un cadre de raisonnement vidéo en streaming ancré dans la mémoire qui préserve une mémoire continue au niveau des segments pendant l'interaction multi-tours. Nous construisons un jeu de données en chaîne de pensée à trois étapes et multiples tours et adoptons une stratégie d'entraînement adaptée aux étapes, tout en imposant une causalité stricte via un masque de causalité en streaming au niveau des segments et un encodage positionnel en streaming. Pendant l'inférence, nous introduisons un pipeline efficace qui chevauche le visionnage et la réflexion et sélectionne de manière adaptative le meilleur moteur d'attention. Selon les protocoles d'entrée en streaming à un tour et à multiples tours, notre méthode obtient des résultats solides. Basée sur Qwen3-VL, elle amène la précision à un tour de 2,6 % sur StreamingBench et de 3,79 % sur OVO-Bench. Dans le cadre multi-tours, elle maintient les performances tout en réduisant les tokens de sortie de 56 %. Le code est disponible à l'adresse : https://github.com/wl666hhh/Think_While_Watching/
English
Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/