Думай во время просмотра: сегментная память онлайн-стримов для многопроходного видеорасусждения в мультимодальных больших языковых моделях

Аннотация

Мультимодальные большие языковые модели (MLLM) демонстрируют высокую производительность в задачах офлайн-анализа видео, однако большинство из них ограничены офлайн-выводом или обладают слабыми возможностями онлайн-рассуждений, что затрудняет многократное взаимодействие с непрерывно поступающими видеопотоками. Существующие потоковые методы обычно используют чередующуюся парадигму восприятия-генерации, которая препятствует параллельному выполнению восприятия и генерации и приводит к преждевременному затуханию памяти по мере роста потоков, ухудшая моделирование длительных зависимостей. Мы предлагаем Think While Watching — основанную на памяти структуру потокового видеорассуждения, которая сохраняет непрерывную сегментную память в процессе многократного взаимодействия. Мы создали трехэтапный многократный набор данных цепочек рассуждений и применили поэтапную стратегию обучения, обеспечивая строгую причинность с помощью сегментной потоковой причинной маски и потокового позиционного кодирования. На этапе вывода мы внедряем эффективный конвейер, совмещающий просмотр и размышление, и адаптивно выбираем оптимальный бэкенд внимания. В рамках протоколов как однократного, так и многократного потокового ввода наш метод демонстрирует высокие результаты. Построенный на основе Qwen3-VL, он повышает точность однократного анализа на 2.6% в StreamingBench и на 3.79% в OVO-Bench. В условиях многократного взаимодействия метод сохраняет производительность при сокращении выходных токенов на 56%. Код доступен по адресу: https://github.com/wl666hhh/Think_While_Watching/

English

Multimodal large language models (MLLMs) have shown strong performance on offline video understanding, but most are limited to offline inference or have weak online reasoning, making multi-turn interaction over continuously arriving video streams difficult. Existing streaming methods typically use an interleaved perception-generation paradigm, which prevents concurrent perception and generation and leads to early memory decay as streams grow, hurting long-range dependency modeling. We propose Think While Watching, a memory-anchored streaming video reasoning framework that preserves continuous segment-level memory during multi-turn interaction. We build a three-stage, multi-round chain-of-thought dataset and adopt a stage-matched training strategy, while enforcing strict causality through a segment-level streaming causal mask and streaming positional encoding. During inference, we introduce an efficient pipeline that overlaps watching and thinking and adaptively selects the best attention backend. Under both single-round and multi-round streaming input protocols, our method achieves strong results. Built on Qwen3-VL, it improves single-round accuracy by 2.6% on StreamingBench and by 3.79% on OVO-Bench. In the multi-round setting, it maintains performance while reducing output tokens by 56%. Code is available at: https://github.com/wl666hhh/Think_While_Watching/

Думай во время просмотра: сегментная память онлайн-стримов для многопроходного видеорасусждения в мультимодальных больших языковых моделях

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Аннотация

Support