VideoLLM-online: Online Video Large Language Model voor Streaming Video
VideoLLM-online: Online Video Large Language Model for Streaming Video
June 17, 2024
Auteurs: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI
Samenvatting
Recente Large Language Models zijn uitgebreid met visuele mogelijkheden, waardoor ze afbeeldingen, video's en gecombineerde visueel-taalkundige inhoud kunnen begrijpen. De leermethoden van deze grote multimodale modellen behandelen video's echter meestal als vooraf bepaalde clips, waardoor ze minder effectief en efficiënt zijn in het verwerken van streaming video-inputs. In dit artikel stellen we een nieuw Learning-In-Video-Stream (LIVE) framework voor, dat tijdelijk uitgelijnde, langdurige context en real-time conversatie mogelijk maakt binnen een continue videostream. Ons LIVE framework omvat uitgebreide benaderingen om videostreamingdialoog te bereiken, waaronder: (1) een trainingsdoel ontworpen om taalmodeling uit te voeren voor continue streaming-inputs, (2) een datageneratieschema dat offline temporele annotaties omzet in een streamingdialoogformaat, en (3) een geoptimaliseerd inferentiepijplijn om de modelresponsen in real-world videostreams te versnellen. Met ons LIVE framework hebben we het VideoLLM-online model gebouwd op basis van Llama-2/Llama-3 en laten we de significante voordelen zien in het verwerken van streaming video's. Zo kan ons model bijvoorbeeld gemiddeld streamingdialoog ondersteunen in een videoclip van 5 minuten met meer dan 10 FPS op een A100 GPU. Bovendien toont het ook state-of-the-art prestaties op openbare offline videobenchmarks, zoals herkenning, ondertiteling en voorspelling. De code, het model, de data en de demo zijn beschikbaar gemaakt op https://showlab.github.io/videollm-online.
English
Recent Large Language Models have been enhanced with vision capabilities,
enabling them to comprehend images, videos, and interleaved vision-language
content. However, the learning methods of these large multimodal models
typically treat videos as predetermined clips, making them less effective and
efficient at handling streaming video inputs. In this paper, we propose a novel
Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned,
long-context, and real-time conversation within a continuous video stream. Our
LIVE framework comprises comprehensive approaches to achieve video streaming
dialogue, encompassing: (1) a training objective designed to perform language
modeling for continuous streaming inputs, (2) a data generation scheme that
converts offline temporal annotations into a streaming dialogue format, and (3)
an optimized inference pipeline to speed up the model responses in real-world
video streams. With our LIVE framework, we built VideoLLM-online model upon
Llama-2/Llama-3 and demonstrate its significant advantages in processing
streaming videos. For instance, on average, our model can support streaming
dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it
also showcases state-of-the-art performance on public offline video benchmarks,
such as recognition, captioning, and forecasting. The code, model, data, and
demo have been made available at https://showlab.github.io/videollm-online.