StreamBridge: Trasformare il tuo Modello Linguistico di Grandi Dimensioni per Video Offline in un Assistente Streaming Proattivo
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
May 8, 2025
Autori: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI
Abstract
Presentiamo StreamBridge, un framework semplice ma efficace che trasforma in modo fluido i Video-LLM offline in modelli capaci di operare in streaming. Affronta due sfide fondamentali nell'adattare i modelli esistenti a scenari online: (1) la capacità limitata di comprensione in tempo reale su più turni e (2) la mancanza di meccanismi di risposta proattiva. Nello specifico, StreamBridge incorpora (1) un buffer di memoria combinato con una strategia di compressione a decadimento circolare, che supporta interazioni multi-turno a contesto lungo, e (2) un modello di attivazione leggero e disaccoppiato che può essere integrato senza sforzo nei Video-LLM esistenti, abilitando risposte proattive continue. Per supportare ulteriormente StreamBridge, abbiamo costruito Stream-IT, un dataset su larga scala progettato per la comprensione di video in streaming, caratterizzato da sequenze video-testo intercalate e formati di istruzione diversificati. Esperimenti estensivi dimostrano che StreamBridge migliora significativamente le capacità di comprensione in streaming dei Video-LLM offline su vari task, superando persino modelli proprietari come GPT-4o e Gemini 1.5 Pro. Allo stesso tempo, raggiunge prestazioni competitive o superiori sui benchmark standard di comprensione video.
English
We present StreamBridge, a simple yet effective framework that seamlessly
transforms offline Video-LLMs into streaming-capable models. It addresses two
fundamental challenges in adapting existing models into online scenarios: (1)
limited capability for multi-turn real-time understanding, and (2) lack of
proactive response mechanisms. Specifically, StreamBridge incorporates (1) a
memory buffer combined with a round-decayed compression strategy, supporting
long-context multi-turn interactions, and (2) a decoupled, lightweight
activation model that can be effortlessly integrated into existing Video-LLMs,
enabling continuous proactive responses. To further support StreamBridge, we
construct Stream-IT, a large-scale dataset tailored for streaming video
understanding, featuring interleaved video-text sequences and diverse
instruction formats. Extensive experiments show that StreamBridge significantly
improves the streaming understanding capabilities of offline Video-LLMs across
various tasks, outperforming even proprietary models such as GPT-4o and Gemini
1.5 Pro. Simultaneously, it achieves competitive or superior performance on
standard video understanding benchmarks.