StreamBridge: Transformando Seu Modelo de Linguagem de Grande Escala para Vídeo Offline em um Assistente de Streaming Proativo
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
May 8, 2025
Autores: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI
Resumo
Apresentamos o StreamBridge, uma estrutura simples, porém eficaz, que transforma de forma contínua Video-LLMs offline em modelos capazes de operar em streaming. Ele aborda dois desafios fundamentais na adaptação de modelos existentes para cenários online: (1) capacidade limitada para compreensão em tempo real em múltiplas interações e (2) falta de mecanismos de resposta proativa. Especificamente, o StreamBridge incorpora (1) um buffer de memória combinado com uma estratégia de compressão com decaimento por rodada, suportando interações de múltiplas voltas em contextos longos, e (2) um modelo de ativação leve e desacoplado que pode ser integrado facilmente em Video-LLMs existentes, permitindo respostas proativas contínuas. Para apoiar ainda mais o StreamBridge, construímos o Stream-IT, um conjunto de dados em larga escala projetado para compreensão de vídeo em streaming, com sequências intercaladas de vídeo e texto e diversos formatos de instrução. Experimentos extensivos mostram que o StreamBridge melhora significativamente as capacidades de compreensão em streaming de Video-LLMs offline em várias tarefas, superando até mesmo modelos proprietários como GPT-4o e Gemini 1.5 Pro. Simultaneamente, ele alcança desempenho competitivo ou superior em benchmarks padrão de compreensão de vídeo.
English
We present StreamBridge, a simple yet effective framework that seamlessly
transforms offline Video-LLMs into streaming-capable models. It addresses two
fundamental challenges in adapting existing models into online scenarios: (1)
limited capability for multi-turn real-time understanding, and (2) lack of
proactive response mechanisms. Specifically, StreamBridge incorporates (1) a
memory buffer combined with a round-decayed compression strategy, supporting
long-context multi-turn interactions, and (2) a decoupled, lightweight
activation model that can be effortlessly integrated into existing Video-LLMs,
enabling continuous proactive responses. To further support StreamBridge, we
construct Stream-IT, a large-scale dataset tailored for streaming video
understanding, featuring interleaved video-text sequences and diverse
instruction formats. Extensive experiments show that StreamBridge significantly
improves the streaming understanding capabilities of offline Video-LLMs across
various tasks, outperforming even proprietary models such as GPT-4o and Gemini
1.5 Pro. Simultaneously, it achieves competitive or superior performance on
standard video understanding benchmarks.