ChatPaper.aiChatPaper

Настройка инструкций для потокового видео

Streaming Video Instruction Tuning

December 24, 2025
Авторы: Jiaer Xia, Peixian Chen, Mengdan Zhang, Xing Sun, Kaiyang Zhou
cs.AI

Аннотация

Мы представляем Streamo — модель крупных языковых моделей (LLM) для потокового видео в реальном времени, которая функционирует как универсальный интерактивный ассистент. В отличие от существующих онлайн-моделей для видео, ориентированных исключительно на ответы на вопросы или генерацию субтитров, Streamo выполняет широкий спектр задач обработки потокового видео, включая нарратив в реальном времени, понимание действий, описание событий, временную привязку событий и ответы на вопросы с учетом временного контекста. Для достижения такой универсальности мы создали Streamo-Instruct-465K — масштабный набор данных с инструкциями, адаптированный для понимания потокового видео. Этот набор данных охватывает разнообразные временные контексты и многозадачное обучение, что позволяет осуществлять унифицированное обучение для разнородных потоковых задач. После сквозного обучения на наборе данных с инструкциями с использованием оптимизированного конвейера Streamo демонстрирует развитые способности к временному анализу, оперативному взаимодействию и широкую обобщающую способность в различных тестах для потокового видео. Многочисленные эксперименты показывают, что Streamo преодолевает разрыв между офлайн-моделями восприятия видео и ассистентами реального времени для мультимодальных данных, делая шаг к унифицированному интеллектуальному анализу видео в непрерывных видеопотоках.
English
We present Streamo, a real-time streaming video LLM that serves as a general-purpose interactive assistant. Unlike existing online video models that focus narrowly on question answering or captioning, Streamo performs a broad spectrum of streaming video tasks, including real-time narration, action understanding, event captioning, temporal event grounding, and time-sensitive question answering. To develop such versatility, we construct Streamo-Instruct-465K, a large-scale instruction-following dataset tailored for streaming video understanding. The dataset covers diverse temporal contexts and multi-task supervision, enabling unified training across heterogeneous streaming tasks. After training end-to-end on the instruction-following dataset through a streamlined pipeline, Streamo exhibits strong temporal reasoning, responsive interaction, and broad generalization across a variety of streaming benchmarks. Extensive experiments show that Streamo bridges the gap between offline video perception models and real-time multimodal assistants, making a step toward unified, intelligent video understanding in continuous video streams.
PDF41December 26, 2025