Video-Streaming-Denken: VideoLLMs können gleichzeitig sehen und denken

Zusammenfassung

Online Video Large Language Models (VideoLLMs) spielen eine entscheidende Rolle bei der Unterstützung reaktionsschneller, echtzeitfähiger Interaktion. Bisherige Methoden konzentrieren sich auf Streaming-Wahrnehmung, vernachlässigen jedoch einen synchronisierten logischen Reasoning-Stream. Die direkte Anwendung von Test-Time-Scaling-Methoden führt jedoch zu inakzeptabler Antwortlatenz. Um diesen Zielkonflikt zu adressieren, schlagen wir Video Streaming Thinking (VST) vor, ein neuartiges Paradigma für das Streaming-Videoverständnis. Es unterstützt einen "Thinking-while-Watching"-Mechanismus, der Reasoning über eingehende Videoclips während des Streamings aktiviert. Dieses Design verbessert das zeitnahe Verständnis und die kohärente Kognition, während es durch Amortisierung der LLM-Reasoning-Latenz über die Videowiedergabe die Echtzeit-Reaktionsfähigkeit erhält. Darüber hinaus führen wir eine umfassende Post-Training-Pipeline ein, die VST-SFT integriert, welches das Offline-VideoLLM strukturell an kausales Streaming-Reasoning anpasst, und VST-RL, das eine end-to-end-Verbesserung durch Selbsterkundung in einer Multi-Turn-Videointeraktionsumgebung bietet. Zusätzlich entwickeln wir eine automatisierte Pipeline zur Synthese von Trainingsdaten, die Videowissensgraphen nutzt, um hochwertige Streaming-Frage-Antwort-Paare zu generieren, mit einem auf Entitäten-Relationen-basierten Streaming Chain-of-Thought, um Multi-Evidenz-Reasoning und anhaltende Aufmerksamkeit auf den Videostream zu erzwingen. Umfangreiche Evaluationen zeigen, dass VST-7B auf Online-Benchmarks stark abschneidet, z.B. 79,5 % auf StreamingBench und 59,3 % auf OVO-Bench. Gleichzeitig bleibt VST auf Offline-Benchmarks für Long-Form- oder Reasoning-Aufgaben wettbewerbsfähig. Im Vergleich zu Video-R1 antwortet VST 15,7-mal schneller und erzielt eine Verbesserung von +5,4 % auf VideoHolmes, was höhere Effizienz und starke Generalisierung über verschiedene Videoverständnisaufgaben hinweg demonstriert. Code, Daten und Modelle werden unter https://github.com/1ranGuan/VST veröffentlicht.

English

Online Video Large Language Models (VideoLLMs) play a critical role in supporting responsive, real-time interaction. Existing methods focus on streaming perception, lacking a synchronized logical reasoning stream. However, directly applying test-time scaling methods incurs unacceptable response latency. To address this trade-off, we propose Video Streaming Thinking (VST), a novel paradigm for streaming video understanding. It supports a thinking while watching mechanism, which activates reasoning over incoming video clips during streaming. This design improves timely comprehension and coherent cognition while preserving real-time responsiveness by amortizing LLM reasoning latency over video playback. Furthermore, we introduce a comprehensive post-training pipeline that integrates VST-SFT, which structurally adapts the offline VideoLLM to causal streaming reasoning, and VST-RL, which provides end-to-end improvement through self-exploration in a multi-turn video interaction environment. Additionally, we devise an automated training-data synthesis pipeline that uses video knowledge graphs to generate high-quality streaming QA pairs, with an entity-relation grounded streaming Chain-of-Thought to enforce multi-evidence reasoning and sustained attention to the video stream. Extensive evaluations show that VST-7B performs strongly on online benchmarks, e.g. 79.5% on StreamingBench and 59.3% on OVO-Bench. Meanwhile, VST remains competitive on offline long-form or reasoning benchmarks. Compared with Video-R1, VST responds 15.7 times faster and achieves +5.4% improvement on VideoHolmes, demonstrating higher efficiency and strong generalization across diverse video understanding tasks. Code, data, and models will be released at https://github.com/1ranGuan/VST.

Video-Streaming-Denken: VideoLLMs können gleichzeitig sehen und denken

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Zusammenfassung

Support