StreamBridge: Transformando Seu Modelo de Linguagem de Grande Escala para Vídeo Offline em um Assistente de Streaming Proativo

Resumo

Apresentamos o StreamBridge, uma estrutura simples, porém eficaz, que transforma de forma contínua Video-LLMs offline em modelos capazes de operar em streaming. Ele aborda dois desafios fundamentais na adaptação de modelos existentes para cenários online: (1) capacidade limitada para compreensão em tempo real em múltiplas interações e (2) falta de mecanismos de resposta proativa. Especificamente, o StreamBridge incorpora (1) um buffer de memória combinado com uma estratégia de compressão com decaimento por rodada, suportando interações de múltiplas voltas em contextos longos, e (2) um modelo de ativação leve e desacoplado que pode ser integrado facilmente em Video-LLMs existentes, permitindo respostas proativas contínuas. Para apoiar ainda mais o StreamBridge, construímos o Stream-IT, um conjunto de dados em larga escala projetado para compreensão de vídeo em streaming, com sequências intercaladas de vídeo e texto e diversos formatos de instrução. Experimentos extensivos mostram que o StreamBridge melhora significativamente as capacidades de compreensão em streaming de Video-LLMs offline em várias tarefas, superando até mesmo modelos proprietários como GPT-4o e Gemini 1.5 Pro. Simultaneamente, ele alcança desempenho competitivo ou superior em benchmarks padrão de compreensão de vídeo.

English

We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-LLMs into streaming-capable models. It addresses two fundamental challenges in adapting existing models into online scenarios: (1) limited capability for multi-turn real-time understanding, and (2) lack of proactive response mechanisms. Specifically, StreamBridge incorporates (1) a memory buffer combined with a round-decayed compression strategy, supporting long-context multi-turn interactions, and (2) a decoupled, lightweight activation model that can be effortlessly integrated into existing Video-LLMs, enabling continuous proactive responses. To further support StreamBridge, we construct Stream-IT, a large-scale dataset tailored for streaming video understanding, featuring interleaved video-text sequences and diverse instruction formats. Extensive experiments show that StreamBridge significantly improves the streaming understanding capabilities of offline Video-LLMs across various tasks, outperforming even proprietary models such as GPT-4o and Gemini 1.5 Pro. Simultaneously, it achieves competitive or superior performance on standard video understanding benchmarks.

StreamBridge: Transformando Seu Modelo de Linguagem de Grande Escala para Vídeo Offline em um Assistente de Streaming Proativo

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

Resumo

Support