StreamBridge: Transformando tu Modelo de Lenguaje de Gran Escala para Vídeo Offline en un Asistente de Transmisión Proactivo
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
May 8, 2025
Autores: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI
Resumen
Presentamos StreamBridge, un marco simple pero efectivo que transforma sin problemas los Video-LLM offline en modelos capaces de funcionar en streaming. Aborda dos desafíos fundamentales en la adaptación de modelos existentes a escenarios en línea: (1) capacidad limitada para la comprensión en tiempo real en múltiples turnos, y (2) falta de mecanismos de respuesta proactiva. Específicamente, StreamBridge incorpora (1) un búfer de memoria combinado con una estrategia de compresión de decaimiento circular, que soporta interacciones de múltiples turnos con contexto largo, y (2) un modelo de activación ligero y desacoplado que puede integrarse sin esfuerzo en Video-LLM existentes, permitiendo respuestas proactivas continuas. Para respaldar aún más StreamBridge, construimos Stream-IT, un conjunto de datos a gran escala diseñado para la comprensión de video en streaming, que presenta secuencias intercaladas de video-texto y diversos formatos de instrucción. Experimentos extensos muestran que StreamBridge mejora significativamente las capacidades de comprensión en streaming de Video-LLM offline en diversas tareas, superando incluso a modelos propietarios como GPT-4o y Gemini 1.5 Pro. Simultáneamente, logra un rendimiento competitivo o superior en benchmarks estándar de comprensión de video.
English
We present StreamBridge, a simple yet effective framework that seamlessly
transforms offline Video-LLMs into streaming-capable models. It addresses two
fundamental challenges in adapting existing models into online scenarios: (1)
limited capability for multi-turn real-time understanding, and (2) lack of
proactive response mechanisms. Specifically, StreamBridge incorporates (1) a
memory buffer combined with a round-decayed compression strategy, supporting
long-context multi-turn interactions, and (2) a decoupled, lightweight
activation model that can be effortlessly integrated into existing Video-LLMs,
enabling continuous proactive responses. To further support StreamBridge, we
construct Stream-IT, a large-scale dataset tailored for streaming video
understanding, featuring interleaved video-text sequences and diverse
instruction formats. Extensive experiments show that StreamBridge significantly
improves the streaming understanding capabilities of offline Video-LLMs across
various tasks, outperforming even proprietary models such as GPT-4o and Gemini
1.5 Pro. Simultaneously, it achieves competitive or superior performance on
standard video understanding benchmarks.Summary
AI-Generated Summary