StreamBridge: Jouw offline video Large Language Model omvormen tot een proactieve streamingassistent
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
May 8, 2025
Auteurs: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI
Samenvatting
We presenteren StreamBridge, een eenvoudig maar effectief raamwerk dat offline Video-LLM's naadloos omzet in streaming-capabele modellen. Het adresseert twee fundamentele uitdagingen bij het aanpassen van bestaande modellen voor online scenario's: (1) beperkte mogelijkheden voor real-time begrip in meerdere beurten, en (2) het ontbreken van proactieve reactiemechanismen. Specifiek integreert StreamBridge (1) een geheugenbuffer gecombineerd met een rond-gedempte compressiestrategie, die lange-context interacties in meerdere beurten ondersteunt, en (2) een ontkoppeld, lichtgewicht activatiemodel dat moeiteloos kan worden geïntegreerd in bestaande Video-LLM's, waardoor continue proactieve reacties mogelijk worden. Om StreamBridge verder te ondersteunen, hebben we Stream-IT geconstrueerd, een grootschalige dataset die is afgestemd op streaming video-begrip, met verweven video-tekstsequenties en diverse instructieformaten. Uitgebreide experimenten tonen aan dat StreamBridge de streaming-begripsmogelijkheden van offline Video-LLM's aanzienlijk verbetert voor diverse taken, en zelfs propriëtaire modellen zoals GPT-4o en Gemini 1.5 Pro overtreft. Tegelijkertijd behaalt het concurrerende of superieure prestaties op standaard video-begrip benchmarks.
English
We present StreamBridge, a simple yet effective framework that seamlessly
transforms offline Video-LLMs into streaming-capable models. It addresses two
fundamental challenges in adapting existing models into online scenarios: (1)
limited capability for multi-turn real-time understanding, and (2) lack of
proactive response mechanisms. Specifically, StreamBridge incorporates (1) a
memory buffer combined with a round-decayed compression strategy, supporting
long-context multi-turn interactions, and (2) a decoupled, lightweight
activation model that can be effortlessly integrated into existing Video-LLMs,
enabling continuous proactive responses. To further support StreamBridge, we
construct Stream-IT, a large-scale dataset tailored for streaming video
understanding, featuring interleaved video-text sequences and diverse
instruction formats. Extensive experiments show that StreamBridge significantly
improves the streaming understanding capabilities of offline Video-LLMs across
various tasks, outperforming even proprietary models such as GPT-4o and Gemini
1.5 Pro. Simultaneously, it achieves competitive or superior performance on
standard video understanding benchmarks.