LLaMA-3.2-Vision Eficiente por meio da Redução de Características Visuais Atendidas Cruzadamente
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features
April 1, 2025
Autores: Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
cs.AI
Resumo
A redução de tokens visuais diminui os custos de inferência causados pelas extensas características de imagem em grandes modelos de visão e linguagem (LVLMs). Diferentemente de estudos relevantes que podam tokens em LVLMs baseados apenas em auto-atenção, nosso trabalho aborda de forma única modelos baseados em atenção cruzada, que alcançam desempenho superior. Identificamos que o tamanho do cache de chave-valor (KV) para tokens de imagem em camadas de atenção cruzada excede significativamente o de tokens de texto em camadas de auto-atenção, representando um grande gargalo computacional. Para mitigar esse problema, exploramos a natureza esparsa nos mapas de atenção cruzada para podar seletivamente características visuais redundantes. Nosso Trimmed Llama reduz efetivamente as demandas de cache KV sem a necessidade de treinamento adicional. Ao se beneficiar de características visuais reduzidas em 50%, nosso modelo pode diminuir a latência de inferência e o uso de memória, mantendo a paridade em benchmarks.
English
Visual token reduction lowers inference costs caused by extensive image
features in large vision-language models (LVLMs). Unlike relevant studies that
prune tokens in self-attention-only LVLMs, our work uniquely addresses
cross-attention-based models, which achieve superior performance. We identify
that the key-value (KV) cache size for image tokens in cross-attention layers
significantly exceeds that of text tokens in self-attention layers, posing a
major compute bottleneck. To mitigate this issue, we exploit the sparse nature
in cross-attention maps to selectively prune redundant visual features. Our
Trimmed Llama effectively reduces KV cache demands without requiring additional
training. By benefiting from 50%-reduced visual features, our model can reduce
inference latency and memory usage while achieving benchmark parity.Summary
AI-Generated Summary