PyramidDrop: Acelerando tus grandes modelos de visión y lenguaje a través de la reducción de redundancia visual en forma de pirámide.
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
October 22, 2024
Autores: Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin
cs.AI
Resumen
En los modelos de gran escala de visión y lenguaje (LVLMs), las imágenes sirven como entradas que contienen una gran cantidad de información. Como dice el dicho "Una imagen vale más que mil palabras", representar una sola imagen en los LVLMs actuales puede requerir cientos o incluso miles de tokens. Esto resulta en costos computacionales significativos, que crecen de forma cuadrática a medida que aumenta la resolución de las imágenes de entrada, impactando severamente la eficiencia tanto del entrenamiento como de la inferencia. Enfoques previos han intentado reducir el número de tokens de imagen ya sea antes o dentro de las capas iniciales de los LVLMs. Sin embargo, estas estrategias inevitablemente resultan en la pérdida de información crucial de la imagen, disminuyendo en última instancia el rendimiento del modelo. Para abordar este desafío, realizamos un estudio empírico que revela que todos los tokens visuales son necesarios para los LVLMs en las capas superficiales, y la redundancia de tokens aumenta progresivamente en las capas más profundas del modelo. Con este fin, proponemos PyramidDrop, una estrategia de reducción de redundancia visual para los LVLMs para aumentar su eficiencia tanto en el entrenamiento como en la inferencia con una pérdida de rendimiento despreciable. Específicamente, dividimos el LVLM en varias etapas y eliminamos parte de los tokens de imagen al final de cada etapa con una proporción predefinida, creando tokens visuales en forma de pirámide a lo largo de las capas del modelo. La eliminación se basa en un cálculo de similitud ligero con un tiempo de ejecución despreciable. Experimentos extensos demuestran que PyramidDrop puede lograr una aceleración del 40% en el tiempo de entrenamiento y del 55% en las FLOPs de inferencia de LLaVA-NeXT con un rendimiento comparable. Además, PyramidDrop también podría servir como una estrategia plug-and-play para la aceleración de la inferencia sin entrenamiento, con un mejor rendimiento y un menor costo de inferencia que sus contrapartes. Esperamos que las ideas y el enfoque introducidos por PyramidDrop inspiren a futuras investigaciones a investigar más a fondo el papel de los tokens de imagen en los LVLMs.
English
In large vision-language models (LVLMs), images serve as inputs that carry a
wealth of information. As the idiom "A picture is worth a thousand words"
implies, representing a single image in current LVLMs can require hundreds or
even thousands of tokens. This results in significant computational costs,
which grow quadratically as input image resolution increases, thereby severely
impacting the efficiency of both training and inference. Previous approaches
have attempted to reduce the number of image tokens either before or within the
early layers of LVLMs. However, these strategies inevitably result in the loss
of crucial image information, ultimately diminishing model performance. To
address this challenge, we conduct an empirical study revealing that all visual
tokens are necessary for LVLMs in the shallow layers, and token redundancy
progressively increases in the deeper layers of the model. To this end, we
propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost
their efficiency in both training and inference with neglectable performance
loss. Specifically, we partition the LVLM into several stages and drop part of
the image tokens at the end of each stage with a pre-defined ratio, creating
pyramid-like visual tokens across model layers. The dropping is based on a
lightweight similarity calculation with a negligible time overhead. Extensive
experiments demonstrate that PyramidDrop can achieve a 40% training time and
55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance.
Besides, the PyramidDrop could also serve as a plug-and-play strategy for
inference acceleration without training, with better performance and lower
inference cost than counterparts. We hope that the insights and approach
introduced by PyramidDrop will inspire future research to further investigate
the role of image tokens in LVLMs.Summary
AI-Generated Summary