ChatPaper.aiChatPaper

VideoLLM-online: ストリーミングビデオ向けオンライン大規模言語モデル

VideoLLM-online: Online Video Large Language Model for Streaming Video

June 17, 2024
著者: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI

要旨

近年の大規模言語モデルは視覚機能を備えるよう進化し、画像や動画、視覚と言語が交錯するコンテンツを理解できるようになりました。しかし、これらの大規模マルチモーダルモデルの学習方法は、通常、動画を事前に決められたクリップとして扱うため、ストリーミング動画入力を効果的かつ効率的に処理することができません。本論文では、連続的な動画ストリーム内で時間的に整合性のある長文脈のリアルタイム会話を可能にする、新たなLearning-In-Video-Stream(LIVE)フレームワークを提案します。私たちのLIVEフレームワークは、動画ストリーミング対話を実現するための包括的なアプローチを包含しており、(1) 連続的なストリーミング入力に対する言語モデリングを実行するように設計された訓練目標、(2) オフラインの時間的アノテーションをストリーミング対話形式に変換するデータ生成スキーム、(3) 実世界の動画ストリームにおけるモデルの応答を高速化する最適化された推論パイプライン、から構成されます。私たちのLIVEフレームワークを用いて、Llama-2/Llama-3を基盤としたVideoLLM-onlineモデルを構築し、ストリーミング動画処理におけるその顕著な利点を実証しました。例えば、平均して、私たちのモデルはA100 GPU上で5分間の動画クリップにおけるストリーミング対話を10 FPS以上でサポートできます。さらに、認識、キャプション生成、予測などの公開オフライン動画ベンチマークにおいても最先端の性能を示しています。コード、モデル、データ、デモはhttps://showlab.github.io/videollm-onlineで公開されています。
English
Recent Large Language Models have been enhanced with vision capabilities, enabling them to comprehend images, videos, and interleaved vision-language content. However, the learning methods of these large multimodal models typically treat videos as predetermined clips, making them less effective and efficient at handling streaming video inputs. In this paper, we propose a novel Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned, long-context, and real-time conversation within a continuous video stream. Our LIVE framework comprises comprehensive approaches to achieve video streaming dialogue, encompassing: (1) a training objective designed to perform language modeling for continuous streaming inputs, (2) a data generation scheme that converts offline temporal annotations into a streaming dialogue format, and (3) an optimized inference pipeline to speed up the model responses in real-world video streams. With our LIVE framework, we built VideoLLM-online model upon Llama-2/Llama-3 and demonstrate its significant advantages in processing streaming videos. For instance, on average, our model can support streaming dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it also showcases state-of-the-art performance on public offline video benchmarks, such as recognition, captioning, and forecasting. The code, model, data, and demo have been made available at https://showlab.github.io/videollm-online.

Summary

AI-Generated Summary

PDF251December 6, 2024