Ottimizzazione dell'Istruzione per Video in Streaming
Streaming Video Instruction Tuning
December 24, 2025
Autori: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI
Abstract
Presentiamo Streamo, un LLM per video streaming in tempo reale che funge da assistente interattivo generico. A differenza dei modelli video online esistenti, che si concentrano in modo ristretto su domande-risposte o didascalie, Streamo esegue un'ampia gamma di attività di video streaming, tra cui narrazione in tempo reale, comprensione delle azioni, descrizione di eventi, localizzazione temporale di eventi e risposte a domande time-sensitive. Per sviluppare tale versatilità, abbiamo costruito Streamo-Instruct-465K, un dataset su larga scala di istruzioni specificamente progettato per la comprensione di video in streaming. Il dataset copre contesti temporali diversificati e supervisione multi-task, consentendo un addestramento unificato su attività eterogenee di streaming. Dopo un addestramento end-to-end sul dataset di istruzioni attraverso una pipeline semplificata, Streamo dimostra un solido ragionamento temporale, interazione reattiva e un'ampia generalizzazione su una varietà di benchmark di streaming. Esperimenti estensivi mostrano che Streamo colma il divario tra i modelli di percezione video offline e gli assistenti multimodali in tempo reale, compiendo un passo verso una comprensione video unificata e intelligente in flussi video continui.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.