Efficiënte LLaMA-3.2-Vision door het snoeien van gekruis-attendeerde visuele kenmerken
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features
April 1, 2025
Auteurs: Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
cs.AI
Samenvatting
Visuele tokenreductie verlaagt de inferentiekosten veroorzaakt door uitgebreide beeldkenmerken in grote visie-taalmodellen (LVLMs). In tegenstelling tot relevante studies die tokens snoeien in LVLMs die alleen zelf-attentie gebruiken, richt ons werk zich uniek op modellen gebaseerd op kruis-attentie, die superieure prestaties leveren. Wij identificeren dat de grootte van de sleutel-waarde (KV) cache voor beeldtokens in kruis-attentielagen aanzienlijk groter is dan die van teksttokens in zelf-attentielagen, wat een belangrijk rekenkundig knelpunt vormt. Om dit probleem te verlichten, benutten we de spaarzame aard van kruis-attentiemappen om overbodige visuele kenmerken selectief te snoeien. Onze Trimmed Llama vermindert effectief de vraag naar KV cache zonder aanvullende training te vereisen. Door te profiteren van 50% gereduceerde visuele kenmerken, kan ons model de inferentielatentie en het geheugengebruik verminderen terwijl het benchmarkpariteit behaalt.
English
Visual token reduction lowers inference costs caused by extensive image
features in large vision-language models (LVLMs). Unlike relevant studies that
prune tokens in self-attention-only LVLMs, our work uniquely addresses
cross-attention-based models, which achieve superior performance. We identify
that the key-value (KV) cache size for image tokens in cross-attention layers
significantly exceeds that of text tokens in self-attention layers, posing a
major compute bottleneck. To mitigate this issue, we exploit the sparse nature
in cross-attention maps to selectively prune redundant visual features. Our
Trimmed Llama effectively reduces KV cache demands without requiring additional
training. By benefiting from 50%-reduced visual features, our model can reduce
inference latency and memory usage while achieving benchmark parity.Summary
AI-Generated Summary