LLaMA-3.2-Vision efficace par élagage des caractéristiques visuelles croisées
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features
April 1, 2025
Auteurs: Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
cs.AI
Résumé
La réduction des tokens visuels diminue les coûts d'inférence engendrés par les caractéristiques d'image étendues dans les grands modèles vision-langage (LVLMs). Contrairement aux études pertinentes qui élaguent les tokens dans les LVLMs basés uniquement sur l'auto-attention, notre travail aborde de manière unique les modèles basés sur l'attention croisée, qui offrent des performances supérieures. Nous identifions que la taille du cache clé-valeur (KV) pour les tokens d'image dans les couches d'attention croisée dépasse significativement celle des tokens de texte dans les couches d'auto-attention, constituant ainsi un goulot d'étranglement majeur en termes de calcul. Pour atténuer ce problème, nous exploitons la nature parcimonieuse des cartes d'attention croisée pour élaguer sélectivement les caractéristiques visuelles redondantes. Notre modèle Trimmed Llama réduit efficacement les besoins en cache KV sans nécessiter d'entraînement supplémentaire. En bénéficiant d'une réduction de 50 % des caractéristiques visuelles, notre modèle peut diminuer la latence d'inférence et l'utilisation de la mémoire tout en maintenant des performances équivalentes aux benchmarks.
English
Visual token reduction lowers inference costs caused by extensive image
features in large vision-language models (LVLMs). Unlike relevant studies that
prune tokens in self-attention-only LVLMs, our work uniquely addresses
cross-attention-based models, which achieve superior performance. We identify
that the key-value (KV) cache size for image tokens in cross-attention layers
significantly exceeds that of text tokens in self-attention layers, posing a
major compute bottleneck. To mitigate this issue, we exploit the sparse nature
in cross-attention maps to selectively prune redundant visual features. Our
Trimmed Llama effectively reduces KV cache demands without requiring additional
training. By benefiting from 50%-reduced visual features, our model can reduce
inference latency and memory usage while achieving benchmark parity.Summary
AI-Generated Summary