PyramidDrop: Acelerando seus Modelos de Visão-Linguagem Grandes através da Redução de Redundância Visual em Pirâmide
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
October 22, 2024
Autores: Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Resumo
Nos grandes modelos de visão e linguagem (LVLMs), as imagens servem como entradas que carregam uma riqueza de informações. Como o ditado "Uma imagem vale mais que mil palavras" sugere, representar uma única imagem nos LVLMs atuais pode exigir centenas ou até milhares de tokens. Isso resulta em custos computacionais significativos, que crescem de forma quadrática à medida que a resolução da imagem de entrada aumenta, impactando severamente a eficiência tanto do treinamento quanto da inferência. Abordagens anteriores tentaram reduzir o número de tokens de imagem antes ou nas camadas iniciais dos LVLMs. No entanto, essas estratégias inevitavelmente resultam na perda de informações cruciais da imagem, diminuindo, em última instância, o desempenho do modelo. Para enfrentar esse desafio, realizamos um estudo empírico que revela que todos os tokens visuais são necessários para os LVLMs nas camadas rasas, e a redundância de tokens aumenta progressivamente nas camadas mais profundas do modelo. Para isso, propomos o PyramidDrop, uma estratégia de redução de redundância visual para os LVLMs a fim de impulsionar sua eficiência tanto no treinamento quanto na inferência, com uma perda de desempenho negligenciável. Especificamente, dividimos o LVLM em várias etapas e eliminamos parte dos tokens de imagem no final de cada etapa com uma proporção pré-definida, criando tokens visuais em forma de pirâmide através das camadas do modelo. A eliminação é baseada em um cálculo de similaridade leve com um tempo de execução negligenciável. Experimentos extensos demonstram que o PyramidDrop pode alcançar uma aceleração de 40% no tempo de treinamento e 55% nas FLOPs de inferência do LLaVA-NeXT com desempenho comparável. Além disso, o PyramidDrop também poderia servir como uma estratégia plug-and-play para aceleração de inferência sem treinamento, com melhor desempenho e menor custo de inferência do que os concorrentes. Esperamos que as ideias e abordagem introduzidas pelo PyramidDrop inspirem pesquisas futuras para investigar ainda mais o papel dos tokens de imagem nos LVLMs.
English
In large vision-language models (LVLMs), images serve as inputs that carry a
wealth of information. As the idiom "A picture is worth a thousand words"
implies, representing a single image in current LVLMs can require hundreds or
even thousands of tokens. This results in significant computational costs,
which grow quadratically as input image resolution increases, thereby severely
impacting the efficiency of both training and inference. Previous approaches
have attempted to reduce the number of image tokens either before or within the
early layers of LVLMs. However, these strategies inevitably result in the loss
of crucial image information, ultimately diminishing model performance. To
address this challenge, we conduct an empirical study revealing that all visual
tokens are necessary for LVLMs in the shallow layers, and token redundancy
progressively increases in the deeper layers of the model. To this end, we
propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost
their efficiency in both training and inference with neglectable performance
loss. Specifically, we partition the LVLM into several stages and drop part of
the image tokens at the end of each stage with a pre-defined ratio, creating
pyramid-like visual tokens across model layers. The dropping is based on a
lightweight similarity calculation with a negligible time overhead. Extensive
experiments demonstrate that PyramidDrop can achieve a 40% training time and
55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance.
Besides, the PyramidDrop could also serve as a plug-and-play strategy for
inference acceleration without training, with better performance and lower
inference cost than counterparts. We hope that the insights and approach
introduced by PyramidDrop will inspire future research to further investigate
the role of image tokens in LVLMs.Summary
AI-Generated Summary