HiRED: Eliminación de Tokens Guiada por Atención para una Inferencia Eficiente de Modelos Visión-Lenguaje de Alta Resolución en Entornos con Recursos Limitados
HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments
August 20, 2024
Autores: Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji
cs.AI
Resumen
Los Modelos de Visión-Lenguaje de Alta Resolución (VLMs) se han utilizado ampliamente en tareas multimodales para mejorar la precisión al preservar información detallada de la imagen. Sin embargo, estos modelos a menudo generan tokens visuales excesivos debido a la codificación de múltiples particiones de la imagen de entrada. Procesar estos tokens visuales excesivos supone un desafío computacional, especialmente en entornos con limitaciones de recursos y GPUs de consumo. Para respaldar imágenes de alta resolución cumpliendo con las restricciones de recursos, proponemos Early Dropping de Alta Resolución (HiRED), un esquema de eliminación de tokens que opera dentro de un presupuesto de tokens fijo antes de la etapa del Modelo de Lenguaje Grande (LLM). HiRED puede integrarse con los VLMs de alta resolución existentes de forma plug-and-play, ya que no requiere entrenamiento adicional y aún así mantiene una precisión superior. Utilizamos estratégicamente la atención del codificador de visión en las capas iniciales para evaluar el contenido visual de cada partición de la imagen y asignar el presupuesto de tokens en consecuencia. Luego, utilizando la atención en la capa final, seleccionamos los tokens visuales más importantes de cada partición dentro del presupuesto asignado, eliminando el resto. Empíricamente, al aplicar HiRED con un presupuesto de tokens del 20% en LLaVA-Next-7B en una GPU NVIDIA TESLA P40, se aumenta la velocidad de generación de tokens en un 4.7, se reduce la latencia de generación del primer token en 15 segundos y se ahorra 2.3 GB de memoria de GPU para una sola inferencia.
English
High-resolution Vision-Language Models (VLMs) have been widely used in
multimodal tasks to enhance accuracy by preserving detailed image information.
However, these models often generate excessive visual tokens due to encoding
multiple partitions of the input image. Processing these excessive visual
tokens is computationally challenging, especially in resource-constrained
environments with commodity GPUs. To support high-resolution images while
meeting resource constraints, we propose High-Resolution Early Dropping
(HiRED), a token-dropping scheme that operates within a fixed token budget
before the Large Language Model (LLM) stage. HiRED can be integrated with
existing high-resolution VLMs in a plug-and-play manner, as it requires no
additional training while still maintaining superior accuracy. We strategically
use the vision encoder's attention in the initial layers to assess the visual
content of each image partition and allocate the token budget accordingly.
Then, using the attention in the final layer, we select the most important
visual tokens from each partition within the allocated budget, dropping the
rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED
with a 20% token budget increases token generation throughput by 4.7, reduces
first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory
for a single inference.Summary
AI-Generated Summary