Otimização de Instrução para Vídeo em Streaming
Streaming Video Instruction Tuning
December 24, 2025
Autores: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI
Resumo
Apresentamos o Streamo, um modelo de linguagem de grande escala (LLM) para vídeo em tempo real que funciona como um assistente interativo de propósito geral. Diferente dos modelos de vídeo online existentes, que se concentram de forma restrita em resposta a perguntas ou legendagem, o Streamo executa uma ampla gama de tarefas de vídeo em fluxo contínuo, incluindo narração em tempo real, compreensão de ações, legendagem de eventos, localização temporal de eventos e resposta a perguntas sensíveis ao tempo. Para desenvolver essa versatilidade, construímos o Streamo-Instruct-465K, um conjunto de dados de larga escala de instruções personalizado para a compreensão de vídeo em streaming. O conjunto de dados abrange diversos contextos temporais e supervisão multitarefa, permitindo um treinamento unificado em tarefas heterogêneas de streaming. Após o treinamento de ponta a ponta no conjunto de dados de instruções por meio de um pipeline simplificado, o Streamo exibe forte raciocínio temporal, interação ágil e ampla generalização em uma variedade de benchmarks de streaming. Experimentos extensivos mostram que o Streamo preenche a lacuna entre modelos de percepção de vídeo offline e assistentes multimodais em tempo real, dando um passo em direção a uma compreensão de vídeo unificada e inteligente em fluxos de vídeo contínuos.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.