LongVU: Compressão Adaptativa Espaço-Temporal para Compreensão de Vídeo e Linguagem Longos
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
October 22, 2024
Autores: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm mostrado progresso promissor na compreensão e análise de conteúdo de vídeo. No entanto, processar vídeos longos continua sendo um desafio significativo limitado pelo tamanho de contexto do LLM. Para lidar com essa limitação, propomos o LongVU, um mecanismo adaptativo de compressão espaço-temporal que reduz o número de tokens de vídeo enquanto preserva detalhes visuais de vídeos longos. Nossa ideia é baseada na alavancagem de consultas cruzadas entre modalidades e dependências entre quadros para reduzir de forma adaptativa a redundância temporal e espacial em vídeos. Especificamente, utilizamos características do DINOv2 para remover quadros redundantes que apresentam alta similaridade. Em seguida, empregamos consultas cruzadas entre modalidades guiadas por texto para redução seletiva de características de quadros. Além disso, realizamos redução de tokens espaciais entre quadros com base em suas dependências temporais. Nossa estratégia de compressão adaptativa processa efetivamente um grande número de quadros com pouca perda de informação visual dentro do comprimento de contexto fornecido. Nosso LongVU consistentemente supera os métodos existentes em uma variedade de benchmarks de compreensão de vídeo, especialmente em tarefas de compreensão de vídeos longos, como VideoMME e MLVU. Dado um LLM leve, nosso LongVU também escala de forma eficaz para um tamanho menor com desempenho de compreensão de vídeo de ponta.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in
understanding and analyzing video content. However, processing long videos
remains a significant challenge constrained by LLM's context size. To address
this limitation, we propose LongVU, a spatiotemporal adaptive compression
mechanism thats reduces the number of video tokens while preserving visual
details of long videos. Our idea is based on leveraging cross-modal query and
inter-frame dependencies to adaptively reduce temporal and spatial redundancy
in videos. Specifically, we leverage DINOv2 features to remove redundant frames
that exhibit high similarity. Then we utilize text-guided cross-modal query for
selective frame feature reduction. Further, we perform spatial token reduction
across frames based on their temporal dependencies. Our adaptive compression
strategy effectively processes a large number of frames with little visual
information loss within given context length. Our LongVU consistently surpass
existing methods across a variety of video understanding benchmarks, especially
on hour-long video understanding tasks such as VideoMME and MLVU. Given a
light-weight LLM, our LongVU also scales effectively into a smaller size with
state-of-the-art video understanding performance.Summary
AI-Generated Summary