StreamBridge : Transformer votre modèle de langage massif vidéo hors ligne en un assistant de streaming proactif

Résumé

Nous présentons StreamBridge, un cadre simple mais efficace qui transforme de manière fluide les modèles Video-LLM hors ligne en modèles capables de fonctionner en streaming. Il aborde deux défis fondamentaux dans l'adaptation des modèles existants aux scénarios en ligne : (1) une capacité limitée pour la compréhension en temps réel sur plusieurs tours, et (2) un manque de mécanismes de réponse proactive. Plus précisément, StreamBridge intègre (1) un tampon mémoire combiné à une stratégie de compression à décroissance circulaire, supportant des interactions à contexte long sur plusieurs tours, et (2) un modèle d'activation léger et découplé qui peut être intégré sans effort dans les Video-LLM existants, permettant des réponses proactives continues. Pour soutenir davantage StreamBridge, nous avons construit Stream-IT, un jeu de données à grande échelle conçu pour la compréhension de vidéos en streaming, comportant des séquences entrelacées de vidéo et de texte ainsi que divers formats d'instructions. Des expériences approfondies montrent que StreamBridge améliore significativement les capacités de compréhension en streaming des Video-LLM hors ligne sur diverses tâches, surpassant même des modèles propriétaires tels que GPT-4o et Gemini 1.5 Pro. Parallèlement, il atteint des performances compétitives ou supérieures sur les benchmarks standards de compréhension vidéo.

English

We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-LLMs into streaming-capable models. It addresses two fundamental challenges in adapting existing models into online scenarios: (1) limited capability for multi-turn real-time understanding, and (2) lack of proactive response mechanisms. Specifically, StreamBridge incorporates (1) a memory buffer combined with a round-decayed compression strategy, supporting long-context multi-turn interactions, and (2) a decoupled, lightweight activation model that can be effortlessly integrated into existing Video-LLMs, enabling continuous proactive responses. To further support StreamBridge, we construct Stream-IT, a large-scale dataset tailored for streaming video understanding, featuring interleaved video-text sequences and diverse instruction formats. Extensive experiments show that StreamBridge significantly improves the streaming understanding capabilities of offline Video-LLMs across various tasks, outperforming even proprietary models such as GPT-4o and Gemini 1.5 Pro. Simultaneously, it achieves competitive or superior performance on standard video understanding benchmarks.

StreamBridge : Transformer votre modèle de langage massif vidéo hors ligne en un assistant de streaming proactif

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

Résumé

Support