ChatPaper.aiChatPaper

VideoLLM-online : Modèle de langage massif en ligne pour le streaming vidéo

VideoLLM-online: Online Video Large Language Model for Streaming Video

June 17, 2024
Auteurs: Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou
cs.AI

Résumé

Les récents modèles de langage de grande taille ont été enrichis de capacités visuelles, leur permettant de comprendre les images, les vidéos et les contenus intercalés vision-langage. Cependant, les méthodes d'apprentissage de ces grands modèles multimodaux traitent généralement les vidéos comme des clips prédéterminés, ce qui les rend moins efficaces et moins performants pour gérer les entrées vidéo en flux continu. Dans cet article, nous proposons un nouveau cadre d'apprentissage en flux vidéo (Learning-In-Video-Stream, LIVE), qui permet une conversation alignée temporellement, à long contexte et en temps réel au sein d'un flux vidéo continu. Notre cadre LIVE comprend des approches complètes pour réaliser un dialogue en flux vidéo, incluant : (1) un objectif d'apprentissage conçu pour effectuer la modélisation du langage pour des entrées en flux continu, (2) un schéma de génération de données qui convertit les annotations temporelles hors ligne en un format de dialogue en flux, et (3) un pipeline d'inférence optimisé pour accélérer les réponses du modèle dans les flux vidéo réels. Avec notre cadre LIVE, nous avons construit le modèle VideoLLM-online sur Llama-2/Llama-3 et démontrons ses avantages significatifs dans le traitement des vidéos en flux. Par exemple, en moyenne, notre modèle peut prendre en charge un dialogue en flux dans un clip vidéo de 5 minutes à plus de 10 FPS sur une GPU A100. De plus, il montre également des performances de pointe sur des benchmarks vidéo hors ligne publics, tels que la reconnaissance, le sous-titrage et la prévision. Le code, le modèle, les données et la démo sont disponibles à l'adresse https://showlab.github.io/videollm-online.
English
Recent Large Language Models have been enhanced with vision capabilities, enabling them to comprehend images, videos, and interleaved vision-language content. However, the learning methods of these large multimodal models typically treat videos as predetermined clips, making them less effective and efficient at handling streaming video inputs. In this paper, we propose a novel Learning-In-Video-Stream (LIVE) framework, which enables temporally aligned, long-context, and real-time conversation within a continuous video stream. Our LIVE framework comprises comprehensive approaches to achieve video streaming dialogue, encompassing: (1) a training objective designed to perform language modeling for continuous streaming inputs, (2) a data generation scheme that converts offline temporal annotations into a streaming dialogue format, and (3) an optimized inference pipeline to speed up the model responses in real-world video streams. With our LIVE framework, we built VideoLLM-online model upon Llama-2/Llama-3 and demonstrate its significant advantages in processing streaming videos. For instance, on average, our model can support streaming dialogue in a 5-minute video clip at over 10 FPS on an A100 GPU. Moreover, it also showcases state-of-the-art performance on public offline video benchmarks, such as recognition, captioning, and forecasting. The code, model, data, and demo have been made available at https://showlab.github.io/videollm-online.

Summary

AI-Generated Summary

PDF251December 6, 2024