스트리밍 비디오 지시 튜닝
Streaming Video Instruction Tuning
December 24, 2025
저자: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI
초록
우리는 범용 상호작용 어시스턴트 역할을 수행하는 실시간 스트리밍 비디오 LLM인 Streamo를 소개한다. 질의응답이나 캡션 생성에만 집중하는 기존 온라인 비디오 모델과 달리, Streamo는 실시간 내레이션, 행동 이해, 이벤트 캡션 생성, 시간적 이벤트 정착, 시간 민감형 질의응답을 포함한 광범위한 스트리밍 비디오 작업을 수행한다. 이러한 다기능성을 구현하기 위해 우리는 스트리밍 비디오 이해에 특화된 대규모 지시 따르기 데이터셋인 Streamo-Instruct-465K를 구축했다. 이 데이터셋은 다양한 시간적 맥락과 다중 작업 감독을 포괄하여 이질적인 스트리밍 작업 간 통합 학습을 가능하게 한다. 간소화된 파이프라인을 통해 지시 따르기 데이터셋에 대한 종단간 학습 이후, Streamo는 다양한 스트리밍 벤치마크에서 강력한 시간적 추론 능력, 반응형 상호작용, 그리고 광범위한 일반화 성능을 보여준다. 폭넓은 실험 결과, Streamo는 오프라인 비디오 인식 모델과 실시간 멀티모달 어시스턴트 간의 격차를 해소하며, 연속 비디오 스트림에서 통합적이고 지능적인 비디오 이해를 향한 한 걸음을 내디딘다.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.