ChatPaper.aiChatPaper

ビデオストリーミング思考:VideoLLMは見ながら同時に思考できる

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

March 12, 2026
著者: Yiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai
cs.AI

要旨

オンライン動画大規模言語モデル(VideoLLM)は、応答性の高いリアルタイムインタラクションを支える上で重要な役割を果たす。既存手法はストリーミング知覚に焦点を当てているが、同期された論理的推論ストリームを欠いている。しかし、テストタイムスケーリング手法を直接適用すると、許容できない応答遅延が発生する。このトレードオフに対処するため、我々はストリーミング動画理解の新しいパラダイムであるVideo Streaming Thinking(VST)を提案する。これは「見ながら考える」メカニズムをサポートし、ストリーミング中の入力動画クリップに対する推論を活性化する。この設計は、LLMの推論遅延を動画再生時間に分散させることで、リアルタイム応答性を維持しつつ、タイムリーな理解と一貫性のある認知を改善する。さらに、オフラインVideoLLMを因果的ストリーミング推論に構造的に適応させるVST-SFTと、マルチターン動画対話環境における自己探索を通じたエンドツーエンドの改善を提供するVST-RLを統合する包括的なポストトレーニングパイプラインを導入する。加えて、動画知識グラフを用いて高品質なストリーミングQAペアを生成し、エンティティ・関係性に基づいたストリーミングChain-of-Thoughtにより、複数証拠に基づく推論と動画ストリームへの持続的注意を強化する、自動化されたトレーニングデータ合成パイプラインを考案する。大規模な評価により、VST-7Bがオンラインベンチマーク(例:StreamingBenchで79.5%、OVO-Benchで59.3%)で強力な性能を発揮することが示された。一方、VSTはオフラインの長編または推論ベンチマークにおいても競争力を維持する。Video-R1と比較して、VSTは15.7倍高速に応答し、VideoHolmesで+5.4%の改善を達成し、様々な動画理解タスクにおいて高い効率性と強力な汎化性能を示す。コード、データ、モデルはhttps://github.com/1ranGuan/VSTで公開予定である。
English
Online Video Large Language Models (VideoLLMs) play a critical role in supporting responsive, real-time interaction. Existing methods focus on streaming perception, lacking a synchronized logical reasoning stream. However, directly applying test-time scaling methods incurs unacceptable response latency. To address this trade-off, we propose Video Streaming Thinking (VST), a novel paradigm for streaming video understanding. It supports a thinking while watching mechanism, which activates reasoning over incoming video clips during streaming. This design improves timely comprehension and coherent cognition while preserving real-time responsiveness by amortizing LLM reasoning latency over video playback. Furthermore, we introduce a comprehensive post-training pipeline that integrates VST-SFT, which structurally adapts the offline VideoLLM to causal streaming reasoning, and VST-RL, which provides end-to-end improvement through self-exploration in a multi-turn video interaction environment. Additionally, we devise an automated training-data synthesis pipeline that uses video knowledge graphs to generate high-quality streaming QA pairs, with an entity-relation grounded streaming Chain-of-Thought to enforce multi-evidence reasoning and sustained attention to the video stream. Extensive evaluations show that VST-7B performs strongly on online benchmarks, e.g. 79.5% on StreamingBench and 59.3% on OVO-Bench. Meanwhile, VST remains competitive on offline long-form or reasoning benchmarks. Compared with Video-R1, VST responds 15.7 times faster and achieves +5.4% improvement on VideoHolmes, demonstrating higher efficiency and strong generalization across diverse video understanding tasks. Code, data, and models will be released at https://github.com/1ranGuan/VST.
PDF302March 30, 2026