ChatPaper.aiChatPaper

Ajustement par instruction de vidéo en streaming

Streaming Video Instruction Tuning

December 24, 2025
papers.authors: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI

papers.abstract

Nous présentons Streamo, un modèle de langage (LLM) en temps réel pour le streaming vidéo, qui sert d'assistant interactif polyvalent. Contrairement aux modèles vidéo en ligne existants qui se concentrent étroitement sur la réponse aux questions ou le sous-titrage, Streamo exécute un large éventail de tâches de streaming vidéo, incluant la narration en temps réel, la compréhension des actions, le sous-titrage d'événements, le repérage temporel d'événements et la réponse à des questions sensibles au facteur temps. Pour développer une telle polyvalence, nous avons construit Streamo-Instruct-465K, un jeu de données à grande échelle d'apprentissage par instructions spécifiquement conçu pour la compréhension du streaming vidéo. Ce jeu de données couvre divers contextes temporels et une supervision multi-tâches, permettant un entraînement unifié pour des tâches de streaming hétérogènes. Après un entraînement de bout en bout sur le jeu de données d'instructions via un pipeline rationalisé, Streamo démontre de solides capacités de raisonnement temporel, une interaction réactive et une large généralisation sur divers benchmarks de streaming. Des expériences approfondies montrent que Streamo comble le fossé entre les modèles de perception vidéo hors ligne et les assistants multimodaux en temps réel, faisant un pas vers une compréhension vidéo unifiée et intelligente dans les flux vidéo continus.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.
PDF41December 26, 2025