ChatPaper.aiChatPaper

LongVU: Пространственно-временная адаптивная компрессия для понимания длинных видео-языков.

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

October 22, 2024
Авторы: Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
cs.AI

Аннотация

Многомодельные модели большого размера (MLLM) продемонстрировали многообещающий прогресс в понимании и анализе видеоконтента. Однако обработка длинных видео остается значительным вызовом, ограниченным размером контекста LLM. Для преодоления этого ограничения мы предлагаем LongVU, механизм пространственно-временной адаптивной компрессии, который уменьшает количество видеотокенов, сохраняя визуальные детали длинных видео. Наша идея основана на использовании кросс-модального запроса и межкадровых зависимостей для адаптивного снижения временной и пространственной избыточности в видео. Конкретно, мы используем функции DINOv2 для удаления избыточных кадров, проявляющих высокую схожесть. Затем мы используем текстово-управляемый кросс-модальный запрос для селективного сокращения признаков кадра. Кроме того, мы осуществляем сокращение пространственных токенов между кадрами на основе их временных зависимостей. Наша стратегия адаптивной компрессии эффективно обрабатывает большое количество кадров с минимальной потерей визуальной информации в рамках заданной длины контекста. Наш LongVU последовательно превосходит существующие методы на различных бенчмарках понимания видео, особенно на задачах понимания видео продолжительностью в час, таких как VideoMME и MLVU. При использовании легкой модели LLM, наш LongVU также эффективно масштабируется до более компактного размера с передовым показателем понимания видео.
English
Multimodal Large Language Models (MLLMs) have shown promising progress in understanding and analyzing video content. However, processing long videos remains a significant challenge constrained by LLM's context size. To address this limitation, we propose LongVU, a spatiotemporal adaptive compression mechanism thats reduces the number of video tokens while preserving visual details of long videos. Our idea is based on leveraging cross-modal query and inter-frame dependencies to adaptively reduce temporal and spatial redundancy in videos. Specifically, we leverage DINOv2 features to remove redundant frames that exhibit high similarity. Then we utilize text-guided cross-modal query for selective frame feature reduction. Further, we perform spatial token reduction across frames based on their temporal dependencies. Our adaptive compression strategy effectively processes a large number of frames with little visual information loss within given context length. Our LongVU consistently surpass existing methods across a variety of video understanding benchmarks, especially on hour-long video understanding tasks such as VideoMME and MLVU. Given a light-weight LLM, our LongVU also scales effectively into a smaller size with state-of-the-art video understanding performance.

Summary

AI-Generated Summary

PDF292November 16, 2024