ChatPaper.aiChatPaper

Streaming-Video-Anleitungsabstimmung

Streaming Video Instruction Tuning

December 24, 2025
papers.authors: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI

papers.abstract

Wir stellen Streamo vor, ein Echtzeit-Streaming-Video-LLM, das als allgemeiner interaktiver Assistent dient. Im Gegensatz zu bestehenden Online-Videomodellen, die sich eng auf Frage-Antwort-Aufgaben oder Beschriftungen konzentrieren, führt Streamo ein breites Spektrum an Streaming-Videoaufgaben aus, darunter Echtzeiterzählung, Aktionsverständnis, Ereignisbeschriftung, temporäre Ereignisverankerung und zeitkritische Fragebeantwortung. Um diese Vielseitigkeit zu entwickeln, haben wir Streamo-Instruct-465K erstellt, einen groß angelegten Instruction-Following-Datensatz, der speziell für das Verständnis von Streaming-Videos konzipiert ist. Der Datensatz deckt diverse zeitliche Kontexte und Multi-Task-Aufsicht ab und ermöglicht so eine einheitliche Ausbildung über heterogene Streaming-Aufgaben hinweg. Nach einem End-to-End-Training auf dem Instruction-Following-Datensatz durch eine optimierte Pipeline zeigt Streamo starke temporale Reasoning-Fähigkeiten, reaktionsschnelle Interaktion und breite Generalisierung über verschiedene Streaming-Benchmarks hinweg. Umfangreiche Experimente belegen, dass Streamo die Lücke zwischen Offline-Videowahrnehmungsmodellen und Echtzeit-Multimodal-Assistenten schließt und damit einen Schritt in Richtung eines einheitlichen, intelligenten Videoverständnisses in kontinuierlichen Videoströmen macht.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.
PDF41December 26, 2025