Ajuste de Instrucción para Video en Streaming
Streaming Video Instruction Tuning
December 24, 2025
Autores: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI
Resumen
Presentamos Streamo, un modelo de lenguaje grande (LLM) de video en tiempo real que funciona como un asistente interactivo de propósito general. A diferencia de los modelos de video en línea existentes, que se centran de forma limitada en la respuesta a preguntas o la generación de descripciones, Streamo realiza un amplio espectro de tareas de video en streaming, incluyendo narración en tiempo real, comprensión de acciones, descripción de eventos, localización temporal de eventos y respuesta a preguntas sensibles al tiempo. Para desarrollar esta versatilidad, construimos Streamo-Instruct-465K, un conjunto de datos a gran escala de instrucciones específicamente diseñado para la comprensión de video en streaming. Este conjunto de datos abarca diversos contextos temporales y supervisión multitarea, permitiendo un entrenamiento unificado para tareas de streaming heterogéneas. Tras ser entrenado de extremo a extremo en el conjunto de datos de instrucciones mediante una pipeline optimizada, Streamo demuestra un fuerte razonamiento temporal, interacción receptiva y una amplia generalización en diversos benchmarks de streaming. Experimentos exhaustivos muestran que Streamo reduce la brecha entre los modelos de percepción de video offline y los asistentes multimodales en tiempo real, dando un paso hacia una comprensión de video unificada e inteligente en flujos de video continuos.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.