VideoLLM-online: Modello Linguistico di Grandi Dimensioni per Video in Streaming
VideoLLM-online: Online Video Large Language Model for Streaming Video
June 17, 2024
Autori: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI
Abstract
I recenti modelli linguistici di grandi dimensioni sono stati potenziati con capacità visive, consentendo loro di comprendere immagini, video e contenuti interconnessi tra visione e linguaggio. Tuttavia, i metodi di apprendimento di questi grandi modelli multimodali trattano tipicamente i video come clip predeterminate, rendendoli meno efficaci ed efficienti nella gestione di input video in streaming. In questo articolo, proponiamo un nuovo framework chiamato Learning-In-Video-Stream (LIVE), che abilita conversazioni temporalmente allineate, a lungo contesto e in tempo reale all'interno di un flusso video continuo. Il nostro framework LIVE comprende approcci completi per realizzare dialoghi in streaming video, includendo: (1) un obiettivo di addestramento progettato per eseguire il modeling linguistico per input in streaming continui, (2) uno schema di generazione dati che converte annotazioni temporali offline in un formato di dialogo in streaming, e (3) una pipeline di inferenza ottimizzata per accelerare le risposte del modello in flussi video reali. Con il nostro framework LIVE, abbiamo costruito il modello VideoLLM-online basato su Llama-2/Llama-3 e dimostrato i suoi significativi vantaggi nell'elaborazione di video in streaming. Ad esempio, in media, il nostro modello può supportare dialoghi in streaming in un clip video di 5 minuti a oltre 10 FPS su una GPU A100. Inoltre, mostra anche prestazioni all'avanguardia su benchmark video pubblici offline, come riconoscimento, descrizione e previsione. Il codice, il modello, i dati e la demo sono disponibili all'indirizzo https://showlab.github.io/videollm-online.
English
Recent Large Language Models have been enhanced with vision capabilities,
enabling them to comprehend images, videos, and interleaved vision-language
content. However, the learning methods of these large multimodal models
typically treat videos as predetermined clips, making them less effective and
efficient at handling streaming video inputs. In this paper, we propose a novel
Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned,
long-context, and real-time conversation within a continuous video stream. Our
LIVE framework comprises comprehensive approaches to achieve video streaming
dialogue, encompassing: (1) a training objective designed to perform language
modeling for continuous streaming inputs, (2) a data generation scheme that
converts offline temporal annotations into a streaming dialogue format, and (3)
an optimized inference pipeline to speed up the model responses in real-world
video streams. With our LIVE framework, we built VideoLLM-online model upon
Llama-2/Llama-3 and demonstrate its significant advantages in processing
streaming videos. For instance, on average, our model can support streaming
dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it
also showcases state-of-the-art performance on public offline video benchmarks,
such as recognition, captioning, and forecasting. The code, model, data, and
demo have been made available at https://showlab.github.io/videollm-online.