ChatPaper.aiChatPaper

VideoLLaMB: Comprensione di video a lungo contesto con memoria ricorrente

VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges

September 2, 2024
Autori: Yuxuan Wang, Cihang Xie, Yang Liu, Zilong Zheng
cs.AI

Abstract

I recenti progressi nei modelli video-linguistici su larga scala hanno mostrato un significativo potenziale per la pianificazione in tempo reale e le interazioni dettagliate. Tuttavia, le loro elevate esigenze computazionali e la scarsità di set di dati annotati limitano la loro praticità per i ricercatori accademici. In questo lavoro, presentiamo VideoLLaMB, un nuovo framework che utilizza token di memoria temporale all'interno dei livelli di collegamento per consentire la codifica di intere sequenze video insieme a dati visivi storici, preservando efficacemente la continuità semantica e migliorando le prestazioni del modello su varie attività. Questo approccio include token di memoria ricorrenti e un algoritmo SceneTilling, che segmenta i video in unità semantiche indipendenti per preservare l'integrità semantica. Empiricamente, VideoLLaMB supera significativamente i modelli video-linguistici esistenti, dimostrando un miglioramento di 5,5 punti rispetto ai suoi concorrenti su tre benchmark VideoQA e 2,06 punti sulla pianificazione egocentrica. I risultati completi su MVBench mostrano che VideoLLaMB-7B ottiene risultati nettamente migliori rispetto ai modelli 7B precedenti dello stesso LLM. In modo sorprendente, mantiene prestazioni robuste come PLLaVA anche con l'aumento della lunghezza del video fino a 8 volte. Inoltre, i risultati del recupero dei frame sul nostro benchmark Needle in a Video Haystack (NIAVH) specializzato, convalidano ulteriormente la capacità di VideoLLaMB di identificare con precisione frame specifici all'interno di video lunghi. Il nostro algoritmo SceneTilling consente anche la generazione diretta di didascalie video in streaming, senza richiedere ulteriori addestramenti. In termini di efficienza, VideoLLaMB, addestrato su 16 frame, supporta fino a 320 frame su una singola GPU Nvidia A100 con scalabilità lineare della memoria GPU, garantendo sia alte prestazioni che convenienza, stabilendo così una nuova base per i modelli video-linguistici a lungo termine sia in ambito accademico che pratico.
English
Recent advancements in large-scale video-language models have shown significant potential for real-time planning and detailed interactions. However, their high computational demands and the scarcity of annotated datasets limit their practicality for academic researchers. In this work, we introduce VideoLLaMB, a novel framework that utilizes temporal memory tokens within bridge layers to allow for the encoding of entire video sequences alongside historical visual data, effectively preserving semantic continuity and enhancing model performance across various tasks. This approach includes recurrent memory tokens and a SceneTilling algorithm, which segments videos into independent semantic units to preserve semantic integrity. Empirically, VideoLLaMB significantly outstrips existing video-language models, demonstrating a 5.5 points improvement over its competitors across three VideoQA benchmarks, and 2.06 points on egocentric planning. Comprehensive results on the MVBench show that VideoLLaMB-7B achieves markedly better results than previous 7B models of same LLM. Remarkably, it maintains robust performance as PLLaVA even as video length increases up to 8 times. Besides, the frame retrieval results on our specialized Needle in a Video Haystack (NIAVH) benchmark, further validate VideoLLaMB's prowess in accurately identifying specific frames within lengthy videos. Our SceneTilling algorithm also enables the generation of streaming video captions directly, without necessitating additional training. In terms of efficiency, VideoLLaMB, trained on 16 frames, supports up to 320 frames on a single Nvidia A100 GPU with linear GPU memory scaling, ensuring both high performance and cost-effectiveness, thereby setting a new foundation for long-form video-language models in both academic and practical applications.
PDF276November 16, 2024