Extensão da Janela de Contexto Visual: Uma Nova Perspectiva para a Compreensão de Vídeos Longos
Visual Context Window Extension: A New Perspective for Long Video Understanding
September 30, 2024
Autores: Hongchen Wei, Zhenzhong Chen
cs.AI
Resumo
Os Grandes Modelos Multimodais (LMMs) têm demonstrado um desempenho impressionante em tarefas de compreensão de vídeos curtos, mas enfrentam grandes desafios quando aplicados à compreensão de vídeos longos. Em contraste, os Grandes Modelos de Linguagem (LLMs) exibem capacidades excepcionais na modelagem de textos longos. Trabalhos existentes tentam abordar essa questão introduzindo pares de vídeo-texto longos durante o treinamento. No entanto, essas abordagens requerem recursos computacionais e de dados substanciais. Neste artigo, enfrentamos o desafio da compreensão de vídeos longos a partir da perspectiva de janelas de contexto, com o objetivo de aplicar LMMs a tarefas de vídeo longo sem retrabalho em conjuntos de dados de vídeo longo. Primeiramente, realizamos uma análise aprofundada sobre por que os LMMs pré-treinados têm dificuldade em compreender conteúdo de vídeo extenso, identificando que discrepâncias entre as modalidades visual e linguística levam a diferentes janelas de contexto para tokens visuais e de linguagem, tornando difícil estender diretamente os tokens visuais para corresponder à janela de contexto de linguagem. Com base nisso, propomos adaptar os LMMs para tarefas de compreensão de vídeo longo estendendo a janela de contexto visual, eliminando a necessidade de retrabalho em conjuntos de dados de vídeo longo em grande escala. Para mitigar ainda mais o consumo significativo de memória causado por sequências longas, introduzimos uma estratégia progressiva de inferência de pooling que ajusta seletivamente a resolução espacial das incorporações de quadros, reduzindo o número de tokens visuais enquanto mantém informações espaciais importantes. Em diversos benchmarks de compreensão de vídeo longo, nosso método melhora consistentemente o desempenho à medida que o número de quadros de vídeo aumenta. No benchmark MLVU, nosso método supera o GPT-4o, mesmo que o tamanho do nosso modelo seja apenas 7B. Além disso, na configuração de 256 quadros, nosso método reduz o uso de memória em aproximadamente 45% em comparação com o modelo de referência, sem introduzir perda de desempenho.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in
short video understanding tasks but face great challenges when applied to long
video understanding. In contrast, Large Language Models (LLMs) exhibit
outstanding capabilities in modeling long texts. Existing work attempts to
address this issue by introducing long video-text pairs during training.
However, these approaches require substantial computational and data resources.
In this paper, we tackle the challenge of long video understanding from the
perspective of context windows, aiming to apply LMMs to long video tasks
without retraining on long video datasets. We first conduct an in-depth
analysis of why pretrained LMMs struggle to understand lengthy video content,
identifying that discrepancies between visual and language modalities lead to
different context windows for visual and language tokens, making it difficult
to directly extend the visual tokens to match the language context window.
Based on this, we propose to adapt LMMs for long video understanding tasks by
extending the visual context window, eliminating the need for retraining on
large scalelong video datasets. To further mitigate the significant memory
consumption caused by long sequences, we introduce a progressive pooling
inference strategy that selectively adjusts the spatial resolution of frame
embeddings, reducing the number of visual tokens while retaining important
spatial information. Across multiple long video understanding benchmarks, our
method consistently improves the performance as the number of video frames
increases. On the MLVU benchmark, our method outperforms GPT-4o, even though
our model size is only 7B. Additionally, in the 256-frame setting, our method
reduces memory usage by approximately 45% compared to the baseline, without
introducing any performance loss.Summary
AI-Generated Summary