StreamBridge : Transformer votre modèle de langage massif vidéo hors ligne en un assistant de streaming proactif
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
May 8, 2025
Auteurs: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI
Résumé
Nous présentons StreamBridge, un cadre simple mais efficace qui transforme de manière fluide les modèles Video-LLM hors ligne en modèles capables de fonctionner en streaming. Il aborde deux défis fondamentaux dans l'adaptation des modèles existants aux scénarios en ligne : (1) une capacité limitée pour la compréhension en temps réel sur plusieurs tours, et (2) un manque de mécanismes de réponse proactive. Plus précisément, StreamBridge intègre (1) un tampon mémoire combiné à une stratégie de compression à décroissance circulaire, supportant des interactions à contexte long sur plusieurs tours, et (2) un modèle d'activation léger et découplé qui peut être intégré sans effort dans les Video-LLM existants, permettant des réponses proactives continues. Pour soutenir davantage StreamBridge, nous avons construit Stream-IT, un jeu de données à grande échelle conçu pour la compréhension de vidéos en streaming, comportant des séquences entrelacées de vidéo et de texte ainsi que divers formats d'instructions. Des expériences approfondies montrent que StreamBridge améliore significativement les capacités de compréhension en streaming des Video-LLM hors ligne sur diverses tâches, surpassant même des modèles propriétaires tels que GPT-4o et Gemini 1.5 Pro. Parallèlement, il atteint des performances compétitives ou supérieures sur les benchmarks standards de compréhension vidéo.
English
We present StreamBridge, a simple yet effective framework that seamlessly
transforms offline Video-LLMs into streaming-capable models. It addresses two
fundamental challenges in adapting existing models into online scenarios: (1)
limited capability for multi-turn real-time understanding, and (2) lack of
proactive response mechanisms. Specifically, StreamBridge incorporates (1) a
memory buffer combined with a round-decayed compression strategy, supporting
long-context multi-turn interactions, and (2) a decoupled, lightweight
activation model that can be effortlessly integrated into existing Video-LLMs,
enabling continuous proactive responses. To further support StreamBridge, we
construct Stream-IT, a large-scale dataset tailored for streaming video
understanding, featuring interleaved video-text sequences and diverse
instruction formats. Extensive experiments show that StreamBridge significantly
improves the streaming understanding capabilities of offline Video-LLMs across
various tasks, outperforming even proprietary models such as GPT-4o and Gemini
1.5 Pro. Simultaneously, it achieves competitive or superior performance on
standard video understanding benchmarks.Summary
AI-Generated Summary