LLaMA-3.2-Vision Eficiente por meio da Redução de Características Visuais Atendidas Cruzadamente

Resumo

A redução de tokens visuais diminui os custos de inferência causados pelas extensas características de imagem em grandes modelos de visão e linguagem (LVLMs). Diferentemente de estudos relevantes que podam tokens em LVLMs baseados apenas em auto-atenção, nosso trabalho aborda de forma única modelos baseados em atenção cruzada, que alcançam desempenho superior. Identificamos que o tamanho do cache de chave-valor (KV) para tokens de imagem em camadas de atenção cruzada excede significativamente o de tokens de texto em camadas de auto-atenção, representando um grande gargalo computacional. Para mitigar esse problema, exploramos a natureza esparsa nos mapas de atenção cruzada para podar seletivamente características visuais redundantes. Nosso Trimmed Llama reduz efetivamente as demandas de cache KV sem a necessidade de treinamento adicional. Ao se beneficiar de características visuais reduzidas em 50%, nosso modelo pode diminuir a latência de inferência e o uso de memória, mantendo a paridade em benchmarks.

English

Visual token reduction lowers inference costs caused by extensive image features in large vision-language models (LVLMs). Unlike relevant studies that prune tokens in self-attention-only LVLMs, our work uniquely addresses cross-attention-based models, which achieve superior performance. We identify that the key-value (KV) cache size for image tokens in cross-attention layers significantly exceeds that of text tokens in self-attention layers, posing a major compute bottleneck. To mitigate this issue, we exploit the sparse nature in cross-attention maps to selectively prune redundant visual features. Our Trimmed Llama effectively reduces KV cache demands without requiring additional training. By benefiting from 50%-reduced visual features, our model can reduce inference latency and memory usage while achieving benchmark parity.

LLaMA-3.2-Vision Eficiente por meio da Redução de Características Visuais Atendidas Cruzadamente

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Resumo

Support