ChatPaper.aiChatPaper

VideoLLM-online: Online Video Large Language Model für Streaming-Video

VideoLLM-online: Online Video Large Language Model for Streaming Video

June 17, 2024
papers.authors: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI

papers.abstract

In jüngster Zeit wurden große Sprachmodelle um Sehfähigkeiten erweitert, die es ihnen ermöglichen, Bilder, Videos und verschränkte Bild-Sprache-Inhalte zu erfassen. Die Lernmethoden dieser großen multimodalen Modelle behandeln Videos jedoch in der Regel als vordefinierte Clips, was sie weniger effektiv und effizient im Umgang mit Streaming-Videoeingaben macht. In diesem Paper schlagen wir ein neuartiges Learning-In-Video-Stream (LIVE)-Framework vor, das eine zeitlich abgestimmte, langkontextige und Echtzeit-Konversation innerhalb eines kontinuierlichen Videostreams ermöglicht. Unser LIVE-Framework umfasst umfassende Ansätze zur Erzielung von Video-Streaming-Dialogen, einschließlich: (1) eines Trainingsziels, das darauf ausgelegt ist, Sprachmodellierung für kontinuierliche Streaming-Eingaben durchzuführen, (2) eines Datengenerierungsschemas, das Offline-Zeitmarkierungen in ein Streaming-Dialogformat umwandelt, und (3) einer optimierten Inferenzpipeline, um die Modellantworten in Echtzeit in Video-Streams zu beschleunigen. Mit unserem LIVE-Framework haben wir das VideoLLM-online-Modell auf Llama-2/Llama-3 aufgebaut und seine signifikanten Vorteile bei der Verarbeitung von Streaming-Videos demonstriert. Beispielsweise kann unser Modell im Durchschnitt einen Streaming-Dialog in einem 5-minütigen Videoclip mit über 10 FPS auf einer A100 GPU unterstützen. Darüber hinaus zeigt es auch eine erstklassige Leistung bei öffentlichen Offline-Video-Benchmarks wie Erkennung, Beschriftung und Prognose. Der Code, das Modell, die Daten und die Demo sind unter https://showlab.github.io/videollm-online verfügbar gemacht worden.
English
Recent Large Language Models have been enhanced with vision capabilities, enabling them to comprehend images, videos, and interleaved vision-language content. However, the learning methods of these large multimodal models typically treat videos as predetermined clips, making them less effective and efficient at handling streaming video inputs. In this paper, we propose a novel Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned, long-context, and real-time conversation within a continuous video stream. Our LIVE framework comprises comprehensive approaches to achieve video streaming dialogue, encompassing: (1) a training objective designed to perform language modeling for continuous streaming inputs, (2) a data generation scheme that converts offline temporal annotations into a streaming dialogue format, and (3) an optimized inference pipeline to speed up the model responses in real-world video streams. With our LIVE framework, we built VideoLLM-online model upon Llama-2/Llama-3 and demonstrate its significant advantages in processing streaming videos. For instance, on average, our model can support streaming dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it also showcases state-of-the-art performance on public offline video benchmarks, such as recognition, captioning, and forecasting. The code, model, data, and demo have been made available at https://showlab.github.io/videollm-online.
PDF251December 6, 2024