ChatPaper.aiChatPaper

VideoLLaMB : Compréhension de vidéos à long contexte avec mémoire récurrente

VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

September 2, 2024
Auteurs: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI

Résumé

Les récentes avancées dans les modèles vidéo-langage à grande échelle ont montré un potentiel significatif pour la planification en temps réel et les interactions détaillées. Cependant, leurs fortes exigences en termes de calcul et la rareté des ensembles de données annotés limitent leur praticité pour les chercheurs académiques. Dans ce travail, nous introduisons VideoLLaMB, un nouveau cadre qui utilise des jetons de mémoire temporelle au sein des couches de pont pour permettre l'encodage de séquences vidéo entières aux côtés de données visuelles historiques, préservant ainsi efficacement la continuité sémantique et améliorant les performances du modèle pour diverses tâches. Cette approche inclut des jetons de mémoire récurrents et un algorithme SceneTilling, qui segmente les vidéos en unités sémantiques indépendantes pour préserver l'intégrité sémantique. De manière empirique, VideoLLaMB surpasse significativement les modèles vidéo-langage existants, démontrant une amélioration de 5,5 points par rapport à ses concurrents à travers trois bancs d'essai VideoQA, et de 2,06 points en planification égocentrique. Des résultats complets sur le MVBench montrent que VideoLLaMB-7B obtient des résultats nettement meilleurs que les modèles 7B précédents du même LLM. De manière remarquable, il maintient des performances robustes même lorsque la longueur de la vidéo augmente jusqu'à 8 fois, tout comme PLLaVA. En outre, les résultats de recherche de trames sur notre banc d'essai spécialisé Needle in a Video Haystack (NIAVH) valident davantage l'efficacité de VideoLLaMB dans l'identification précise de trames spécifiques au sein de vidéos longues. Notre algorithme SceneTilling permet également la génération de légendes vidéo en continu directement, sans nécessiter de formation supplémentaire. En termes d'efficacité, VideoLLaMB, formé sur 16 trames, prend en charge jusqu'à 320 trames sur un seul GPU Nvidia A100 avec une mise à l'échelle linéaire de la mémoire GPU, garantissant à la fois des performances élevées et une rentabilité, établissant ainsi de nouvelles bases pour les modèles vidéo-langage à longue forme dans les applications académiques et pratiques.
English
Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.

Summary

AI-Generated Summary

PDF286November 16, 2024