HiRED: Eliminación de Tokens Guiada por Atención para una Inferencia Eficiente de Modelos Visión-Lenguaje de Alta Resolución en Entornos con Recursos Limitados

Resumen

Los Modelos de Visión-Lenguaje de Alta Resolución (VLMs) se han utilizado ampliamente en tareas multimodales para mejorar la precisión al preservar información detallada de la imagen. Sin embargo, estos modelos a menudo generan tokens visuales excesivos debido a la codificación de múltiples particiones de la imagen de entrada. Procesar estos tokens visuales excesivos supone un desafío computacional, especialmente en entornos con limitaciones de recursos y GPUs de consumo. Para respaldar imágenes de alta resolución cumpliendo con las restricciones de recursos, proponemos Early Dropping de Alta Resolución (HiRED), un esquema de eliminación de tokens que opera dentro de un presupuesto de tokens fijo antes de la etapa del Modelo de Lenguaje Grande (LLM). HiRED puede integrarse con los VLMs de alta resolución existentes de forma plug-and-play, ya que no requiere entrenamiento adicional y aún así mantiene una precisión superior. Utilizamos estratégicamente la atención del codificador de visión en las capas iniciales para evaluar el contenido visual de cada partición de la imagen y asignar el presupuesto de tokens en consecuencia. Luego, utilizando la atención en la capa final, seleccionamos los tokens visuales más importantes de cada partición dentro del presupuesto asignado, eliminando el resto. Empíricamente, al aplicar HiRED con un presupuesto de tokens del 20% en LLaVA-Next-7B en una GPU NVIDIA TESLA P40, se aumenta la velocidad de generación de tokens en un 4.7, se reduce la latencia de generación del primer token en 15 segundos y se ahorra 2.3 GB de memoria de GPU para una sola inferencia.

English

High-resolution Vision-Language Models (VLMs) have been widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate excessive visual tokens due to encoding multiple partitions of the input image. Processing these excessive visual tokens is computationally challenging, especially in resource-constrained environments with commodity GPUs. To support high-resolution images while meeting resource constraints, we propose High-Resolution Early Dropping (HiRED), a token-dropping scheme that operates within a fixed token budget before the Large Language Model (LLM) stage. HiRED can be integrated with existing high-resolution VLMs in a plug-and-play manner, as it requires no additional training while still maintaining superior accuracy. We strategically use the vision encoder's attention in the initial layers to assess the visual content of each image partition and allocate the token budget accordingly. Then, using the attention in the final layer, we select the most important visual tokens from each partition within the allocated budget, dropping the rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED with a 20% token budget increases token generation throughput by 4.7, reduces first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory for a single inference.

HiRED: Eliminación de Tokens Guiada por Atención para una Inferencia Eficiente de Modelos Visión-Lenguaje de Alta Resolución en Entornos con Recursos Limitados

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

Resumen

Support