LLaMA-3.2-Vision efficace par élagage des caractéristiques visuelles croisées

papers.abstract

La réduction des tokens visuels diminue les coûts d'inférence engendrés par les caractéristiques d'image étendues dans les grands modèles vision-langage (LVLMs). Contrairement aux études pertinentes qui élaguent les tokens dans les LVLMs basés uniquement sur l'auto-attention, notre travail aborde de manière unique les modèles basés sur l'attention croisée, qui offrent des performances supérieures. Nous identifions que la taille du cache clé-valeur (KV) pour les tokens d'image dans les couches d'attention croisée dépasse significativement celle des tokens de texte dans les couches d'auto-attention, constituant ainsi un goulot d'étranglement majeur en termes de calcul. Pour atténuer ce problème, nous exploitons la nature parcimonieuse des cartes d'attention croisée pour élaguer sélectivement les caractéristiques visuelles redondantes. Notre modèle Trimmed Llama réduit efficacement les besoins en cache KV sans nécessiter d'entraînement supplémentaire. En bénéficiant d'une réduction de 50 % des caractéristiques visuelles, notre modèle peut diminuer la latence d'inférence et l'utilisation de la mémoire tout en maintenant des performances équivalentes aux benchmarks.

English

Visual token reduction lowers inference costs caused by extensive image features in large vision-language models (LVLMs). Unlike relevant studies that prune tokens in self-attention-only LVLMs, our work uniquely addresses cross-attention-based models, which achieve superior performance. We identify that the key-value (KV) cache size for image tokens in cross-attention layers significantly exceeds that of text tokens in self-attention layers, posing a major compute bottleneck. To mitigate this issue, we exploit the sparse nature in cross-attention maps to selectively prune redundant visual features. Our Trimmed Llama effectively reduces KV cache demands without requiring additional training. By benefiting from 50%-reduced visual features, our model can reduce inference latency and memory usage while achieving benchmark parity.

LLaMA-3.2-Vision efficace par élagage des caractéristiques visuelles croisées

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

papers.abstract

Support