LLaMA-3.2-Vision eficiente mediante el recorte de características visuales atendidas cruzadamente

Resumen

La reducción de tokens visuales disminuye los costos de inferencia causados por las extensas características de imagen en los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés). A diferencia de estudios relevantes que podan tokens en LVLM basados únicamente en auto-atención, nuestro trabajo aborda de manera única modelos basados en atención cruzada, los cuales logran un rendimiento superior. Identificamos que el tamaño de la caché clave-valor (KV) para los tokens de imagen en las capas de atención cruzada supera significativamente al de los tokens de texto en las capas de auto-atención, lo que representa un cuello de botella importante en el cómputo. Para mitigar este problema, aprovechamos la naturaleza dispersa en los mapas de atención cruzada para podar selectivamente características visuales redundantes. Nuestro modelo Trimmed Llama reduce eficazmente las demandas de la caché KV sin requerir entrenamiento adicional. Al beneficiarse de un 50% menos de características visuales, nuestro modelo puede reducir la latencia de inferencia y el uso de memoria mientras mantiene un rendimiento equivalente en los puntos de referencia.

English

Visual token reduction lowers inference costs caused by extensive image features in large vision-language models (LVLMs). Unlike relevant studies that prune tokens in self-attention-only LVLMs, our work uniquely addresses cross-attention-based models, which achieve superior performance. We identify that the key-value (KV) cache size for image tokens in cross-attention layers significantly exceeds that of text tokens in self-attention layers, posing a major compute bottleneck. To mitigate this issue, we exploit the sparse nature in cross-attention maps to selectively prune redundant visual features. Our Trimmed Llama effectively reduces KV cache demands without requiring additional training. By benefiting from 50%-reduced visual features, our model can reduce inference latency and memory usage while achieving benchmark parity.

LLaMA-3.2-Vision eficiente mediante el recorte de características visuales atendidas cruzadamente

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Resumen

Support