LLaMA-3.2-Vision eficiente mediante el recorte de características visuales atendidas cruzadamente
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features
April 1, 2025
Autores: Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
cs.AI
Resumen
La reducción de tokens visuales disminuye los costos de inferencia causados por las extensas características de imagen en los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés). A diferencia de estudios relevantes que podan tokens en LVLM basados únicamente en auto-atención, nuestro trabajo aborda de manera única modelos basados en atención cruzada, los cuales logran un rendimiento superior. Identificamos que el tamaño de la caché clave-valor (KV) para los tokens de imagen en las capas de atención cruzada supera significativamente al de los tokens de texto en las capas de auto-atención, lo que representa un cuello de botella importante en el cómputo. Para mitigar este problema, aprovechamos la naturaleza dispersa en los mapas de atención cruzada para podar selectivamente características visuales redundantes. Nuestro modelo Trimmed Llama reduce eficazmente las demandas de la caché KV sin requerir entrenamiento adicional. Al beneficiarse de un 50% menos de características visuales, nuestro modelo puede reducir la latencia de inferencia y el uso de memoria mientras mantiene un rendimiento equivalente en los puntos de referencia.
English
Visual token reduction lowers inference costs caused by extensive image
features in large vision-language models (LVLMs). Unlike relevant studies that
prune tokens in self-attention-only LVLMs, our work uniquely addresses
cross-attention-based models, which achieve superior performance. We identify
that the key-value (KV) cache size for image tokens in cross-attention layers
significantly exceeds that of text tokens in self-attention layers, posing a
major compute bottleneck. To mitigate this issue, we exploit the sparse nature
in cross-attention maps to selectively prune redundant visual features. Our
Trimmed Llama effectively reduces KV cache demands without requiring additional
training. By benefiting from 50%-reduced visual features, our model can reduce
inference latency and memory usage while achieving benchmark parity.Summary
AI-Generated Summary