ChatPaper.aiChatPaper

생각하며 시청하기: 멀티모달 대규모 언어 모델을 위한 다중 턴 비디오 추론을 위한 온라인 스트리밍 세그먼트 수준 메모리

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

March 12, 2026
저자: Lu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 오프라인 비디오 이해에서 강력한 성능을 보여주지만, 대부분 오프라인 추론에 국한되거나 온라인 추론 능력이 약해 지속적으로 수신되는 비디오 스트림에 대한 다중 턴 상호작용이 어려운 실정입니다. 기존 스트리밍 방법은 일반적으로 인지-생성 교차 패러다임을 사용하는데, 이는 인지와 생성을 동시에 수행하지 못하게 하며 스트림이 길어짐에 따라 초기 메모리 감쇠를 유발하여 장기 의존성 모델링을 저해합니다. 본 연구에서는 다중 턴 상호작용 중 지속적인 세그먼트 수준 메모리를 보존하는 메모리 앵커 기반 스트리밍 비디오 추론 프레임워크인 Think While Watching을 제안합니다. 3단계 다중 라운드 사고 연쇄(chain-of-thought) 데이터셋을 구축하고 단계별 맞춤 훈련 전략을 채택함과 동시에, 세그먼트 수준의 스트리밍 인과 마스크와 스트리밍 위치 인코딩을 통해 엄격한 인과성을 적용합니다. 추론 단계에서는 시청(watching)과 사고(thinking)를 중첩시키고 최적의 어텐션 백엔드를 적응적으로 선택하는 효율적인 파이프라인을 도입합니다. 단일 라운드 및 다중 라운드 스트리밍 입력 프로토콜 하에서 우리 방법은 강력한 성과를 달성했습니다. Qwen3-VL 기반으로 구축된 본 방법은 StreamingBench에서 단일 라운드 정확도를 2.6%, OVO-Bench에서 3.79% 향상시켰습니다. 다중 라운드 설정에서는 출력 토큰을 56% 줄이면서도 성능을 유지했습니다. 코드는 https://github.com/wl666hhh/Think_While_Watching/에서 확인할 수 있습니다.
English
Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/
PDF102March 30, 2026