Streamende Video-instructieafstemming
Streaming Video Instruction Tuning
December 24, 2025
Auteurs: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI
Samenvatting
Wij presenteren Streamo, een real-time streaming video LLM die functioneert als een algemeen inzetbare, interactieve assistent. In tegenstelling tot bestaande online videomodellen die zich beperken tot vraag-antwoordtaken of ondertiteling, voert Streamo een breed scala aan streamingvideotaken uit, waaronder real-time narratie, actiebegrip, gebeurtenisondertiteling, temporele gebeurtenislokalisatie en tijdgevoelige vraagbeantwoording. Om deze veelzijdigheid te ontwikkelen, hebben wij Streamo-Instruct-465K geconstrueerd, een grootschalige instructievolgend dataset toegesneden op streamingvideobegrip. De dataset bestrijkt diverse temporele contexten en multi-task supervisie, wat uniforme training over heterogene streamingtaken mogelijk maakt. Na end-to-end training op de instructievolgende dataset via een gestroomlijnde pijplijn, toont Streamo sterk temporeel redeneervermogen, responsieve interactie en brede generalisatie over diverse streamingbenchmarks. Uitgebreide experimenten tonen aan dat Streamo de kloof overbrugt tussen offline videoperceptiemodellen en real-time multimodale assistenten, en zo een stap zet naar uniforme, intelligente videobegrip in continue videostreams.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.