Efficiënte LLaMA-3.2-Vision door het snoeien van gekruis-attendeerde visuele kenmerken

Samenvatting

Visuele tokenreductie verlaagt de inferentiekosten veroorzaakt door uitgebreide beeldkenmerken in grote visie-taalmodellen (LVLMs). In tegenstelling tot relevante studies die tokens snoeien in LVLMs die alleen zelf-attentie gebruiken, richt ons werk zich uniek op modellen gebaseerd op kruis-attentie, die superieure prestaties leveren. Wij identificeren dat de grootte van de sleutel-waarde (KV) cache voor beeldtokens in kruis-attentielagen aanzienlijk groter is dan die van teksttokens in zelf-attentielagen, wat een belangrijk rekenkundig knelpunt vormt. Om dit probleem te verlichten, benutten we de spaarzame aard van kruis-attentiemappen om overbodige visuele kenmerken selectief te snoeien. Onze Trimmed Llama vermindert effectief de vraag naar KV cache zonder aanvullende training te vereisen. Door te profiteren van 50% gereduceerde visuele kenmerken, kan ons model de inferentielatentie en het geheugengebruik verminderen terwijl het benchmarkpariteit behaalt.

English

Visual token reduction lowers inference costs caused by extensive image features in large vision-language models (LVLMs). Unlike relevant studies that prune tokens in self-attention-only LVLMs, our work uniquely addresses cross-attention-based models, which achieve superior performance. We identify that the key-value (KV) cache size for image tokens in cross-attention layers significantly exceeds that of text tokens in self-attention layers, posing a major compute bottleneck. To mitigate this issue, we exploit the sparse nature in cross-attention maps to selectively prune redundant visual features. Our Trimmed Llama effectively reduces KV cache demands without requiring additional training. By benefiting from 50%-reduced visual features, our model can reduce inference latency and memory usage while achieving benchmark parity.

Efficiënte LLaMA-3.2-Vision door het snoeien van gekruis-attendeerde visuele kenmerken

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Samenvatting

Support