VideoLLM-online: Онлайн видео большой языковой модель для потокового видео
VideoLLM-online: Online Video Large Language Model for Streaming Video
June 17, 2024
Авторы: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI
Аннотация
Недавние крупные языковые модели были усовершенствованы с возможностями зрения, что позволяет им понимать изображения, видео и взаимосвязанный контент зрения-языка. Однако методы обучения этих крупных мультимодальных моделей обычно рассматривают видео как заранее определенные клипы, что делает их менее эффективными и эффективными в обработке потоковых видеовходов. В данной статье мы предлагаем новую концепцию Learning-In-Video-Stream (LIVE), которая позволяет осуществлять временно согласованный, долгий контекст и реальное время разговора в непрерывном видеопотоке. Наша концепция LIVE включает в себя комплексные подходы к достижению видеопотокового диалога, включая: (1) целевой тренировочный объект, разработанный для выполнения языкового моделирования для непрерывных видеовходов, (2) схему генерации данных, которая преобразует офлайновые временные аннотации в формат потокового диалога, и (3) оптимизированный конвейер вывода для ускорения ответов модели в видеопотоках реального мира. С нашей концепцией LIVE мы создали модель VideoLLM-online на основе Llama-2/Llama-3 и продемонстрировали ее значительные преимущества в обработке потоковых видео. Например, в среднем наша модель может поддерживать потоковый диалог в видеоклипе продолжительностью 5 минут со скоростью более 10 кадров в секунду на GPU A100. Более того, она также демонстрирует передовые показатели на публичных офлайновых видео-бенчмарках, таких как распознавание, подписывание и прогнозирование. Код, модель, данные и демонстрация доступны по адресу https://showlab.github.io/videollm-online.
English
Recent Large Language Models have been enhanced with vision capabilities,
enabling them to comprehend images, videos, and interleaved vision-language
content. However, the learning methods of these large multimodal models
typically treat videos as predetermined clips, making them less effective and
efficient at handling streaming video inputs. In this paper, we propose a novel
Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned,
long-context, and real-time conversation within a continuous video stream. Our
LIVE framework comprises comprehensive approaches to achieve video streaming
dialogue, encompassing: (1) a training objective designed to perform language
modeling for continuous streaming inputs, (2) a data generation scheme that
converts offline temporal annotations into a streaming dialogue format, and (3)
an optimized inference pipeline to speed up the model responses in real-world
video streams. With our LIVE framework, we built VideoLLM-online model upon
Llama-2/Llama-3 and demonstrate its significant advantages in processing
streaming videos. For instance, on average, our model can support streaming
dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it
also showcases state-of-the-art performance on public offline video benchmarks,
such as recognition, captioning, and forecasting. The code, model, data, and
demo have been made available at https://showlab.github.io/videollm-online.Summary
AI-Generated Summary