ChatPaper.aiChatPaper

StreamBridge: Ihr Offline-Video-Large-Language-Modell in einen proaktiven Streaming-Assistenten verwandeln

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

May 8, 2025
Autoren: Haibo Wang, Bo Feng, Zhengfeng Lai, Mingze Xu, Shiyu Li, Weifeng Ge, Afshin Dehghan, Meng Cao, Ping Huang
cs.AI

Zusammenfassung

Wir präsentieren StreamBridge, ein einfaches, aber effektives Framework, das Offline-Video-LLMs nahtlos in streamingfähige Modelle transformiert. Es adressiert zwei grundlegende Herausforderungen bei der Anpassung bestehender Modelle für Online-Szenarien: (1) die begrenzte Fähigkeit zur Echtzeit-Verarbeitung von Mehrfachinteraktionen und (2) das Fehlen proaktiver Antwortmechanismen. Konkret integriert StreamBridge (1) einen Speicherpuffer in Kombination mit einer rundenbasierten Kompressionsstrategie, die langfristige Mehrfachinteraktionen unterstützt, und (2) ein entkoppeltes, leichtgewichtiges Aktivierungsmodell, das problemlos in bestehende Video-LLMs integriert werden kann und kontinuierliche proaktive Antworten ermöglicht. Um StreamBridge weiter zu unterstützen, haben wir Stream-IT erstellt, einen umfangreichen Datensatz, der speziell für das Verständnis von Streaming-Videos entwickelt wurde und verschachtelte Video-Text-Sequenzen sowie diverse Instruktionsformate enthält. Umfangreiche Experimente zeigen, dass StreamBridge die Streaming-Verständnisfähigkeiten von Offline-Video-LLMs in verschiedenen Aufgaben signifikant verbessert und sogar proprietäre Modelle wie GPT-4o und Gemini 1.5 Pro übertrifft. Gleichzeitig erzielt es wettbewerbsfähige oder überlegene Leistungen auf Standard-Benchmarks für das Video-Verständnis.
English
We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-LLMs into streaming-capable models. It addresses two fundamental challenges in adapting existing models into online scenarios: (1) limited capability for multi-turn real-time understanding, and (2) lack of proactive response mechanisms. Specifically, StreamBridge incorporates (1) a memory buffer combined with a round-decayed compression strategy, supporting long-context multi-turn interactions, and (2) a decoupled, lightweight activation model that can be effortlessly integrated into existing Video-LLMs, enabling continuous proactive responses. To further support StreamBridge, we construct Stream-IT, a large-scale dataset tailored for streaming video understanding, featuring interleaved video-text sequences and diverse instruction formats. Extensive experiments show that StreamBridge significantly improves the streaming understanding capabilities of offline Video-LLMs across various tasks, outperforming even proprietary models such as GPT-4o and Gemini 1.5 Pro. Simultaneously, it achieves competitive or superior performance on standard video understanding benchmarks.

Summary

AI-Generated Summary

PDF81May 9, 2025