ChatPaper.aiChatPaper

考えながら視聴:マルチモーダル大規模言語モデルにおけるマルチターン映像推論のためのオンラインストリーミング・セグメントレベルメモリ

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

March 12, 2026
著者: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)はオフラインの映像理解において強力な性能を示すが、その多くはオフライン推論に限定されるか、オンライン推論能力が弱く、継続的に到着する映像ストリームに対するマルチターン対話を困難にしている。既存のストリーミング手法は通常、知覚と生成を交互に行うパラダイムを採用しており、知覚と生成の並行実行を妨げ、ストリームの拡大に伴う早期のメモリ減衰を招くため、長距離依存関係のモデリングが損なわれる。本研究では、マルチターン対話中に連続的なセグメント単位のメモリを保持する、メモリ固定型ストリーミング映像推論フレームワーク「Think While Watching」を提案する。3段階のマルチラウンド思考連鎖データセットを構築し、段階対応型学習戦略を採用するとともに、セグメント単位のストリーミング因果マスクとストリーミング位置エンコーディングにより厳密な因果関係を確保する。推論時には、視聴と思考を重複させ、最適なアテンションバックエンドを適応的に選択する効率的なパイプラインを導入する。単一ラウンド及びマルチラウンドのストリーミング入力プロトコル下で、本手法は優れた結果を示す。Qwen3-VLを基盤として、StreamingBenchでは単一ラウンド精度が2.6%、OVO-Benchでは3.79%向上した。マルチラウンド設定では、出力トークンを56%削減しつつ性能を維持する。コードはhttps://github.com/wl666hhh/Think_While_Watching/ で公開されている。
English
Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/
PDF102March 30, 2026