ChatPaper.aiChatPaper

LongVU: Compresión Adaptativa Espaciotemporal para la Comprensión de Video-Lenguaje Extenso

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

October 22, 2024
Autores: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs) han demostrado un progreso prometedor en la comprensión y análisis de contenido de video. Sin embargo, el procesamiento de videos largos sigue siendo un desafío significativo limitado por el tamaño del contexto de los LLM. Para abordar esta limitación, proponemos LongVU, un mecanismo de compresión adaptativa espacio-temporal que reduce el número de tokens de video mientras preserva los detalles visuales de videos largos. Nuestra idea se basa en aprovechar consultas cruzadas entre modalidades y dependencias entre fotogramas para reducir de forma adaptativa la redundancia temporal y espacial en videos. Específicamente, aprovechamos las características de DINOv2 para eliminar fotogramas redundantes que muestran una alta similitud. Luego utilizamos consultas cruzadas entre modalidades guiadas por texto para la reducción selectiva de características de fotogramas. Además, realizamos una reducción de tokens espaciales entre fotogramas basada en sus dependencias temporales. Nuestra estrategia de compresión adaptativa procesa de manera efectiva un gran número de fotogramas con poco deterioro de la información visual dentro de la longitud de contexto dada. Nuestro LongVU supera consistentemente a los métodos existentes en una variedad de pruebas de comprensión de video, especialmente en tareas de comprensión de videos de larga duración como VideoMME y MLVU. Dado un LLM ligero, nuestro LongVU también escala de manera efectiva a un tamaño más pequeño con un rendimiento de comprensión de video de vanguardia.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in understanding and analyzing video content. However, processing long videos remains a significant challenge constrained by LLM's context size. To address this limitation, we propose LongVU, a spatiotemporal adaptive compression mechanism thats reduces the number of video tokens while preserving visual details of long videos. Our idea is based on leveraging cross-modal query and inter-frame dependencies to adaptively reduce temporal and spatial redundancy in videos. Specifically, we leverage DINOv2 features to remove redundant frames that exhibit high similarity. Then we utilize text-guided cross-modal query for selective frame feature reduction. Further, we perform spatial token reduction across frames based on their temporal dependencies. Our adaptive compression strategy effectively processes a large number of frames with little visual information loss within given context length. Our LongVU consistently surpass existing methods across a variety of video understanding benchmarks, especially on hour-long video understanding tasks such as VideoMME and MLVU. Given a light-weight LLM, our LongVU also scales effectively into a smaller size with state-of-the-art video understanding performance.

Summary

AI-Generated Summary

PDF292November 16, 2024