ストリーミングビデオ指導チューニング
Streaming Video Instruction Tuning
December 24, 2025
著者: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI
要旨
本論文では、汎用対話型アシスタントとして機能するリアルタイムストリーミング動画LLM「Streamo」を提案する。既存のオンライン動画モデルが質問応答やキャプション生成に特化しているのに対し、Streamoはリアルタイムナレーション、行動理解、イベントキャプション生成、時間的イベント定位、時間敏感な質問応答など、幅広いストリーミング動画タスクを実行する。この汎用性を実現するため、我々はストリーミング動画理解に特化した大規模指示追従データセット「Streamo-Instruct-465K」を構築した。本データセットは多様な時間的文脈とマルチタスク監督を網羅し、異種ストリーミングタスク間の統一的な学習を可能にする。効率化されたパイプラインを通じて指示追従データセットでエンドツーエンド学習後、Streamoは様々なストリーミングベンチマークにおいて、優れた時間推論能力、応答性の高い対話、広範な一般化性能を示す。大規模実験により、Streamoがオフライン動画認識モデルとリアルタイムマルチモーダルアシスタントの間の隔たりを埋め、連続動画ストリームにおける統合的で知的な動画理解への一歩を踏み出していることを実証する。
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.