StreamBridge: オフラインのビデオ大規模言語モデルをプロアクティブなストリーミングアシスタントへと進化させる
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
May 8, 2025
著者: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI
要旨
本論文では、StreamBridgeを紹介します。これは、オフラインのVideo-LLMをストリーミング対応モデルにシームレスに変換する、シンプルでありながら効果的なフレームワークです。StreamBridgeは、既存モデルをオンラインシナリオに適応させる際の2つの根本的な課題に対処します。(1) マルチターンでのリアルタイム理解能力の限界、(2) 能動的な応答メカニズムの欠如。具体的には、StreamBridgeは、(1) ラウンド減衰圧縮戦略と組み合わせたメモリバッファを導入し、長文脈でのマルチターンインタラクションをサポートし、(2) 既存のVideo-LLMに容易に統合可能な分離型の軽量アクティベーションモデルを採用し、継続的な能動的応答を可能にします。さらに、StreamBridgeをサポートするため、ストリーミングビデオ理解に特化した大規模データセットであるStream-ITを構築しました。これは、インタリーブされたビデオ-テキストシーケンスと多様な指示形式を特徴としています。大規模な実験により、StreamBridgeが、さまざまなタスクにおいてオフラインVideo-LLMのストリーミング理解能力を大幅に向上させ、GPT-4oやGemini 1.5 Proなどのプロプライエタリモデルをも凌駕することが示されました。同時に、標準的なビデオ理解ベンチマークにおいても競争力のある、またはそれ以上の性能を達成しています。
English
We present StreamBridge, a simple yet effective framework that seamlessly
transforms offline Video-LLMs into streaming-capable models. It addresses two
fundamental challenges in adapting existing models into online scenarios: (1)
limited capability for multi-turn real-time understanding, and (2) lack of
proactive response mechanisms. Specifically, StreamBridge incorporates (1) a
memory buffer combined with a round-decayed compression strategy, supporting
long-context multi-turn interactions, and (2) a decoupled, lightweight
activation model that can be effortlessly integrated into existing Video-LLMs,
enabling continuous proactive responses. To further support StreamBridge, we
construct Stream-IT, a large-scale dataset tailored for streaming video
understanding, featuring interleaved video-text sequences and diverse
instruction formats. Extensive experiments show that StreamBridge significantly
improves the streaming understanding capabilities of offline Video-LLMs across
various tasks, outperforming even proprietary models such as GPT-4o and Gemini
1.5 Pro. Simultaneously, it achieves competitive or superior performance on
standard video understanding benchmarks.Summary
AI-Generated Summary