Video Streaming Denken: VideoLLM's Kunnen Tegelijkertijd Kijken en Denken

Samenvatting

Online Video Large Language Models (VideoLLM's) spelen een cruciale rol bij het ondersteunen van responsieve, real-time interactie. Bestaande methodes richten zich op streamingperceptie, maar missen een gesynchroniseerde logische redeneerstroom. Het direct toepassen van test-time scaling-methodes leidt echter tot onaanvaardbare responstijden. Om deze afweging aan te pakken, stellen we Video Streaming Thinking (VST) voor, een nieuw paradigma voor streaming video-begrip. Het ondersteunt een 'denken tijdens het kijken'-mechanisme dat redeneren over binnenkomende videofragmenten activeert tijdens het streamen. Dit ontwerp verbetert tijdig begrip en coherente cognitie, terwijl het real-time responsiviteit behoudt door de LLM-redeneerlatentie te amortiseren over de videoweergave. Verder introduceren we een uitgebreide post-training pipeline die VST-SFT integreert, dat de offline VideoLLM structureel aanpast voor causaal streaming redeneren, en VST-RL, dat end-to-end verbetering biedt via zelfexploratie in een multi-turn video-interactieomgeving. Daarnaast ontwikkelen we een geautomatiseerde pijplijn voor het synthetiseren van trainingsdata die videokennismodellen gebruikt om hoogwaardige streaming vraag-antwoordparen te genereren, met een op entiteit-relatie gebaseerde streaming Chain-of-Thought om redeneren op basis van meerdere bewijsstukken en aanhoudende aandacht voor de videostream af te dwingen. Uitgebreide evaluaties tonen aan dat VST-7B sterk presteert op online benchmarks, bijvoorbeeld 79,5% op StreamingBench en 59,3% op OVO-Bench. Tegelijkertijd blijft VST concurrerend op offline long-form of redeneerbenchmarks. Vergeleken met Video-R1 reageert VST 15,7 keer sneller en behaalt het een verbetering van +5,4% op VideoHolmes, wat wijst op hogere efficiëntie en sterke generalisatie over diverse video-begriptaken. Code, data en modellen worden vrijgegeven op https://github.com/1ranGuan/VST.

English

Online Video Large Language Models (VideoLLMs) play a critical role in supporting responsive, real-time interaction. Existing methods focus on streaming perception, lacking a synchronized logical reasoning stream. However, directly applying test-time scaling methods incurs unacceptable response latency. To address this trade-off, we propose Video Streaming Thinking (VST), a novel paradigm for streaming video understanding. It supports a thinking while watching mechanism, which activates reasoning over incoming video clips during streaming. This design improves timely comprehension and coherent cognition while preserving real-time responsiveness by amortizing LLM reasoning latency over video playback. Furthermore, we introduce a comprehensive post-training pipeline that integrates VST-SFT, which structurally adapts the offline VideoLLM to causal streaming reasoning, and VST-RL, which provides end-to-end improvement through self-exploration in a multi-turn video interaction environment. Additionally, we devise an automated training-data synthesis pipeline that uses video knowledge graphs to generate high-quality streaming QA pairs, with an entity-relation grounded streaming Chain-of-Thought to enforce multi-evidence reasoning and sustained attention to the video stream. Extensive evaluations show that VST-7B performs strongly on online benchmarks, e.g. 79.5% on StreamingBench and 59.3% on OVO-Bench. Meanwhile, VST remains competitive on offline long-form or reasoning benchmarks. Compared with Video-R1, VST responds 15.7 times faster and achieves +5.4% improvement on VideoHolmes, demonstrating higher efficiency and strong generalization across diverse video understanding tasks. Code, data, and models will be released at https://github.com/1ranGuan/VST.

Video Streaming Denken: VideoLLM's Kunnen Tegelijkertijd Kijken en Denken

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Samenvatting

Support