StreamBridge: 오프라인 비디오 대형 언어 모델을 능동적 스트리밍 어시스턴트로 전환하기
StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant
May 8, 2025
저자: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI
초록
우리는 오프라인 Video-LLM을 스트리밍 가능한 모델로 원활하게 변환하는 간단하지만 효과적인 프레임워크인 StreamBridge를 소개합니다. StreamBridge는 기존 모델을 온라인 시나리오에 적용하는 데 있어 두 가지 근본적인 문제를 해결합니다: (1) 다중 턴 실시간 이해 능력의 한계, 그리고 (2) 능동적인 응답 메커니즘의 부재. 구체적으로, StreamBridge는 (1) 장기 컨텍스트 다중 턴 상호작용을 지원하는 메모리 버퍼와 라운드 감소 압축 전략을 통합하고, (2) 기존 Video-LLM에 손쉽게 통합할 수 있는 분리된 경량 활성화 모델을 포함하여 지속적인 능동적 응답을 가능하게 합니다. StreamBridge를 더욱 지원하기 위해, 우리는 인터리브된 비디오-텍스트 시퀀스와 다양한 지시 형식을 특징으로 하는 스트리밍 비디오 이해를 위한 대규모 데이터셋인 Stream-IT를 구축했습니다. 광범위한 실험을 통해 StreamBridge가 다양한 작업에서 오프라인 Video-LLM의 스트리밍 이해 능력을 크게 향상시키며, GPT-4o 및 Gemini 1.5 Pro와 같은 독점 모델을 능가하는 것으로 나타났습니다. 동시에, 표준 비디오 이해 벤치마크에서도 경쟁력 있거나 우수한 성능을 달성합니다.
English
We present StreamBridge, a simple yet effective framework that seamlessly
transforms offline Video-LLMs into streaming-capable models. It addresses two
fundamental challenges in adapting existing models into online scenarios: (1)
limited capability for multi-turn real-time understanding, and (2) lack of
proactive response mechanisms. Specifically, StreamBridge incorporates (1) a
memory buffer combined with a round-decayed compression strategy, supporting
long-context multi-turn interactions, and (2) a decoupled, lightweight
activation model that can be effortlessly integrated into existing Video-LLMs,
enabling continuous proactive responses. To further support StreamBridge, we
construct Stream-IT, a large-scale dataset tailored for streaming video
understanding, featuring interleaved video-text sequences and diverse
instruction formats. Extensive experiments show that StreamBridge significantly
improves the streaming understanding capabilities of offline Video-LLMs across
various tasks, outperforming even proprietary models such as GPT-4o and Gemini
1.5 Pro. Simultaneously, it achieves competitive or superior performance on
standard video understanding benchmarks.Summary
AI-Generated Summary