Эффективный LLaMA-3.2-Vision за счет сокращения кросс-внимательных визуальных признаков
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features
April 1, 2025
Авторы: Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
cs.AI
Аннотация
Сокращение визуальных токенов снижает затраты на вывод, вызванные обширными признаками изображений в крупных моделях визуально-языкового взаимодействия (LVLM). В отличие от соответствующих исследований, которые удаляют токены в LVLM, использующих только самовнимание, наша работа уникально фокусируется на моделях, основанных на перекрестном внимании, которые демонстрируют превосходную производительность. Мы выявили, что размер кэша ключей-значений (KV) для токенов изображений в слоях перекрестного внимания значительно превышает таковой для текстовых токенов в слоях самовнимания, что создает серьезное вычислительное узкое место. Для решения этой проблемы мы используем разреженный характер карт перекрестного внимания, чтобы выборочно удалять избыточные визуальные признаки. Наша модель Trimmed Llama эффективно снижает требования к кэшу KV без необходимости дополнительного обучения. Благодаря сокращению визуальных признаков на 50%, наша модель способна уменьшить задержку вывода и использование памяти, сохраняя при этом соответствие эталонным показателям.
English
Visual token reduction lowers inference costs caused by extensive image
features in large vision-language models (LVLMs). Unlike relevant studies that
prune tokens in self-attention-only LVLMs, our work uniquely addresses
cross-attention-based models, which achieve superior performance. We identify
that the key-value (KV) cache size for image tokens in cross-attention layers
significantly exceeds that of text tokens in self-attention layers, posing a
major compute bottleneck. To mitigate this issue, we exploit the sparse nature
in cross-attention maps to selectively prune redundant visual features. Our
Trimmed Llama effectively reduces KV cache demands without requiring additional
training. By benefiting from 50%-reduced visual features, our model can reduce
inference latency and memory usage while achieving benchmark parity.Summary
AI-Generated Summary