ChatPaper.aiChatPaper

Расширение визуального контекстного окна: новая перспектива для понимания длинных видео.

Visual Context Window Extension: A New Perspective for Long Video Understanding

September 30, 2024
Авторы: Hongchen Wei, Zhenzhong Chen
cs.AI

Аннотация

Большие мультимодальные модели (LMM) продемонстрировали впечатляющую производительность в задачах понимания коротких видео, но сталкиваются с серьезными трудностями при применении к пониманию длинных видео. В отличие от этого, большие языковые модели (LLM) проявляют выдающиеся способности в моделировании длинных текстов. Существующие работы пытаются решить эту проблему путем введения длинных пар видео-текст во время обучения. Однако эти подходы требуют значительных вычислительных и данных ресурсов. В данной статье мы решаем задачу понимания длинных видео с точки зрения окон контекста, с целью применения LMM к задачам с длинными видео без повторного обучения на больших наборах данных с длинными видео. Сначала мы проводим глубокий анализ того, почему предварительно обученные LMM испытывают трудности в понимании длинного видео контента, выявляя, что расхождения между визуальными и языковыми модальностями приводят к различным окнам контекста для визуальных и языковых токенов, что затрудняет прямое расширение визуальных токенов для соответствия языковому окну контекста. Исходя из этого, мы предлагаем адаптировать LMM для задач понимания длинного видео путем расширения визуального окна контекста, устраняя необходимость повторного обучения на больших наборах данных с длинными видео. Для дальнейшего смягчения значительного потребления памяти из-за длинных последовательностей, мы предлагаем стратегию постепенной пулинговой инференции, которая выборочно корректирует пространственное разрешение встраиваний кадров, уменьшая количество визуальных токенов, сохраняя важную пространственную информацию. На нескольких бенчмарках понимания длинного видео наш метод последовательно улучшает производительность с увеличением количества видеокадров. На бенчмарке MLVU наш метод превосходит GPT-4o, даже если размер нашей модели составляет всего 7 млрд. Кроме того, в настройке с 256 кадрами наш метод снижает использование памяти примерно на 45% по сравнению с базовым вариантом, не вводя при этом потери производительности.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.

Summary

AI-Generated Summary

PDF112November 13, 2024