Эффективный LLaMA-3.2-Vision за счет сокращения кросс-внимательных визуальных признаков

Аннотация

Сокращение визуальных токенов снижает затраты на вывод, вызванные обширными признаками изображений в крупных моделях визуально-языкового взаимодействия (LVLM). В отличие от соответствующих исследований, которые удаляют токены в LVLM, использующих только самовнимание, наша работа уникально фокусируется на моделях, основанных на перекрестном внимании, которые демонстрируют превосходную производительность. Мы выявили, что размер кэша ключей-значений (KV) для токенов изображений в слоях перекрестного внимания значительно превышает таковой для текстовых токенов в слоях самовнимания, что создает серьезное вычислительное узкое место. Для решения этой проблемы мы используем разреженный характер карт перекрестного внимания, чтобы выборочно удалять избыточные визуальные признаки. Наша модель Trimmed Llama эффективно снижает требования к кэшу KV без необходимости дополнительного обучения. Благодаря сокращению визуальных признаков на 50%, наша модель способна уменьшить задержку вывода и использование памяти, сохраняя при этом соответствие эталонным показателям.

English

Visual token reduction lowers inference costs caused by extensive image features in large vision-language models (LVLMs). Unlike relevant studies that prune tokens in self-attention-only LVLMs, our work uniquely addresses cross-attention-based models, which achieve superior performance. We identify that the key-value (KV) cache size for image tokens in cross-attention layers significantly exceeds that of text tokens in self-attention layers, posing a major compute bottleneck. To mitigate this issue, we exploit the sparse nature in cross-attention maps to selectively prune redundant visual features. Our Trimmed Llama effectively reduces KV cache demands without requiring additional training. By benefiting from 50%-reduced visual features, our model can reduce inference latency and memory usage while achieving benchmark parity.

Эффективный LLaMA-3.2-Vision за счет сокращения кросс-внимательных визуальных признаков

Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features

Аннотация

Support