**Видеопотоковое мышление: VideoLLM могут одновременно смотреть и думать**

Аннотация

Крупные языковые модели для онлайн-видео (VideoLLMs) играют ключевую роль в обеспечении отзывчивого взаимодействия в реальном времени. Существующие методы фокусируются на потоковом восприятии, но лишены синхронизированного потока логических рассуждений. Однако прямое применение методов масштабирования во время тестирования приводит к неприемлемой задержке ответа. Чтобы решить эту проблему компромисса, мы предлагаем Video Streaming Thinking (VST) — новую парадигму для потокового понимания видео. Она поддерживает механизм «размышления во время просмотра», который активирует рассуждения над поступающими видеофрагментами в потоковом режиме. Такая конструкция улучшает своевременное понимание и связное восприятие, сохраняя при этом реактивность в реальном времени за счет распределения задержки рассуждений LLM на время воспроизведения видео. Кроме того, мы представляем комплексный конвейер пост-обучения, который объединяет VST-SFT, структурно адаптирующий автономную VideoLLM к причинно-следственному потоковому рассуждению, и VST-RL, обеспечивающий сквозное улучшение через самоисследование в среде многократного видео-взаимодействия. Дополнительно мы разработали автоматизированный конвейер синтеза обучающих данных, который использует видео-графы знаний для генерации высококачественных потоковых вопросно-ответных пар, с обоснованным сущностями и отношениями потоковым «Рассуждением по цепочке» для обеспечения аргументации на основе множества свидетельств и устойчивого внимания к видеопотоку. Обширные оценки показывают, что VST-7B демонстрирует высокие результаты на онлайн-бенчмарках, например, 79.5% на StreamingBench и 59.3% на OVO-Bench. При этом VST остается конкурентоспособной на автономных бенчмарках для длинных видео или рассуждений. По сравнению с Video-R1, VST отвечает в 15.7 раз быстрее и достигает улучшения на +5.4% на VideoHolmes, демонстрируя более высокую эффективность и сильную обобщающую способность для разнообразных задач понимания видео. Код, данные и модели будут выпущены по адресу https://github.com/1ranGuan/VST.

English

Online Video Large Language Models (VideoLLMs) play a critical role in supporting responsive, real-time interaction. Existing methods focus on streaming perception, lacking a synchronized logical reasoning stream. However, directly applying test-time scaling methods incurs unacceptable response latency. To address this trade-off, we propose Video Streaming Thinking (VST), a novel paradigm for streaming video understanding. It supports a thinking while watching mechanism, which activates reasoning over incoming video clips during streaming. This design improves timely comprehension and coherent cognition while preserving real-time responsiveness by amortizing LLM reasoning latency over video playback. Furthermore, we introduce a comprehensive post-training pipeline that integrates VST-SFT, which structurally adapts the offline VideoLLM to causal streaming reasoning, and VST-RL, which provides end-to-end improvement through self-exploration in a multi-turn video interaction environment. Additionally, we devise an automated training-data synthesis pipeline that uses video knowledge graphs to generate high-quality streaming QA pairs, with an entity-relation grounded streaming Chain-of-Thought to enforce multi-evidence reasoning and sustained attention to the video stream. Extensive evaluations show that VST-7B performs strongly on online benchmarks, e.g. 79.5% on StreamingBench and 59.3% on OVO-Bench. Meanwhile, VST remains competitive on offline long-form or reasoning benchmarks. Compared with Video-R1, VST responds 15.7 times faster and achieves +5.4% improvement on VideoHolmes, demonstrating higher efficiency and strong generalization across diverse video understanding tasks. Code, data, and models will be released at https://github.com/1ranGuan/VST.

Видеопотоковое мышление: VideoLLM могут одновременно смотреть и думать

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Аннотация

Support