ChatPaper.aiChatPaper

LongVU: Compressione Adattiva Spaziotemporale per la Comprensione di Video-Lingua Lunghi

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

October 22, 2024
Autori: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno mostrato progressi promettenti nella comprensione e nell'analisi dei contenuti video. Tuttavia, elaborare video lunghi rimane una sfida significativa limitata dalla dimensione del contesto degli LLM. Per affrontare questa limitazione, proponiamo LongVU, un meccanismo di compressione adattiva spazio-temporale che riduce il numero di token video preservando i dettagli visivi dei video lunghi. La nostra idea si basa sull'utilizzo di interrogazioni cross-modali e dipendenze tra frame per ridurre in modo adattivo la ridondanza temporale e spaziale nei video. In particolare, sfruttiamo le caratteristiche DINOv2 per rimuovere frame ridondanti che mostrano alta similarità. Successivamente, utilizziamo interrogazioni cross-modali guidate dal testo per la riduzione selettiva delle caratteristiche del frame. Inoltre, effettuiamo una riduzione dei token spaziali tra i frame in base alle loro dipendenze temporali. La nostra strategia di compressione adattiva elabora efficacemente un gran numero di frame con scarsa perdita di informazioni visive entro la lunghezza del contesto fornita. Il nostro LongVU supera costantemente i metodi esistenti su una varietà di benchmark di comprensione video, in particolare su compiti di comprensione video di lunga durata come VideoMME e MLVU. Dato un LLM leggero, il nostro LongVU scala efficacemente anche in una dimensione più piccola con prestazioni di comprensione video all'avanguardia.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in understanding and analyzing video content. However, processing long videos remains a significant challenge constrained by LLM's context size. To address this limitation, we propose LongVU, a spatiotemporal adaptive compression mechanism thats reduces the number of video tokens while preserving visual details of long videos. Our idea is based on leveraging cross-modal query and inter-frame dependencies to adaptively reduce temporal and spatial redundancy in videos. Specifically, we leverage DINOv2 features to remove redundant frames that exhibit high similarity. Then we utilize text-guided cross-modal query for selective frame feature reduction. Further, we perform spatial token reduction across frames based on their temporal dependencies. Our adaptive compression strategy effectively processes a large number of frames with little visual information loss within given context length. Our LongVU consistently surpass existing methods across a variety of video understanding benchmarks, especially on hour-long video understanding tasks such as VideoMME and MLVU. Given a light-weight LLM, our LongVU also scales effectively into a smaller size with state-of-the-art video understanding performance.

Summary

AI-Generated Summary

PDF292November 16, 2024