Pensée en streaming vidéo : Les modèles de langage vidéo peuvent regarder et réfléchir simultanément

Résumé

Les grands modèles de langage pour vidéo en ligne (VideoLLMs) jouent un rôle crucial dans le support d'interactions réactives en temps réel. Les méthodes existantes se concentrent sur la perception en flux continu, mais manquent d'un flux de raisonnement logique synchronisé. Cependant, l'application directe des méthodes de mise à l'échelle au moment du test entraîne une latence de réponse inacceptable. Pour résoudre ce compromis, nous proposons Video Streaming Thinking (VST), un nouveau paradigme pour la compréhension de vidéo en flux continu. Il supporte un mécanisme de réflexion pendant le visionnage, qui active le raisonnement sur des extraits vidéo entrants durant le streaming. Cette conception améliore la compréhension rapide et la cognition cohérente tout en préservant la réactivité en temps réel, en amortissant la latence de raisonnement du LLM sur la lecture vidéo. De plus, nous introduisons un pipeline complet de post-formation qui intègre VST-SFT, qui adapte structurellement le VideoLLM hors ligne au raisonnement causal en streaming, et VST-RL, qui fournit une amélioration de bout en bout grâce à l'auto-exploration dans un environnement d'interaction vidéo multi-tours. Par ailleurs, nous concevons un pipeline automatisé de synthèse de données d'entraînement qui utilise des graphes de connaissances vidéo pour générer des paires question-réponse de streaming de haute qualité, avec un enchaînement de pensée (Chain-of-Thought) ancré dans les entités-relations pour imposer un raisonnement multi-preuve et une attention soutenue au flux vidéo. Des évaluations approfondies montrent que VST-7B obtient de solides performances sur des benchmarks en ligne, par exemple 79,5% sur StreamingBench et 59,3% sur OVO-Bench. Parallèlement, VST reste compétitif sur des benchmarks hors ligne de forme longue ou de raisonnement. Comparé à Video-R1, VST répond 15,7 fois plus vite et réalise une amélioration de +5,4% sur VideoHolmes, démontrant une efficacité supérieure et une forte généralisation sur diverses tâches de compréhension vidéo. Le code, les données et les modèles seront publiés sur https://github.com/1ranGuan/VST.

English

Online Video Large Language Models (VideoLLMs) play a critical role in supporting responsive, real-time interaction. Existing methods focus on streaming perception, lacking a synchronized logical reasoning stream. However, directly applying test-time scaling methods incurs unacceptable response latency. To address this trade-off, we propose Video Streaming Thinking (VST), a novel paradigm for streaming video understanding. It supports a thinking while watching mechanism, which activates reasoning over incoming video clips during streaming. This design improves timely comprehension and coherent cognition while preserving real-time responsiveness by amortizing LLM reasoning latency over video playback. Furthermore, we introduce a comprehensive post-training pipeline that integrates VST-SFT, which structurally adapts the offline VideoLLM to causal streaming reasoning, and VST-RL, which provides end-to-end improvement through self-exploration in a multi-turn video interaction environment. Additionally, we devise an automated training-data synthesis pipeline that uses video knowledge graphs to generate high-quality streaming QA pairs, with an entity-relation grounded streaming Chain-of-Thought to enforce multi-evidence reasoning and sustained attention to the video stream. Extensive evaluations show that VST-7B performs strongly on online benchmarks, e.g. 79.5% on StreamingBench and 59.3% on OVO-Bench. Meanwhile, VST remains competitive on offline long-form or reasoning benchmarks. Compared with Video-R1, VST responds 15.7 times faster and achieves +5.4% improvement on VideoHolmes, demonstrating higher efficiency and strong generalization across diverse video understanding tasks. Code, data, and models will be released at https://github.com/1ranGuan/VST.

Pensée en streaming vidéo : Les modèles de langage vidéo peuvent regarder et réfléchir simultanément

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Résumé

Support