HiRED: Внимание-управляемое отбрасывание токенов для эффективного вывода моделей высокоразрешающего зрения-языка в ресурсоограниченных средах.
HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments
August 20, 2024
Авторы: Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji
cs.AI
Аннотация
Модели видео-языка высокого разрешения (VLM) широко используются в мультимодальных задачах для повышения точности за счет сохранения детальной информации об изображении. Однако эти модели часто генерируют избыточные визуальные токены из-за кодирования нескольких разделов входного изображения. Обработка этих избыточных визуальных токенов является вычислительно сложной, особенно в условиях ограниченных ресурсов с использованием обычных графических процессоров. Для поддержки изображений высокого разрешения при соблюдении ограничений ресурсов мы предлагаем схему отбрасывания токенов на ранней стадии с высоким разрешением (HiRED), которая работает в рамках фиксированного бюджета токенов до стадии большой языковой модели (LLM). HiRED может быть интегрирован с существующими моделями VLM высокого разрешения путем подключения и использования, поскольку не требует дополнительного обучения, сохраняя при этом превосходную точность. Мы стратегически используем внимание кодера видения в начальных слоях для оценки визуального содержимого каждого раздела изображения и распределения бюджета токенов соответственно. Затем, используя внимание в конечном слое, мы выбираем наиболее важные визуальные токены из каждого раздела в рамках выделенного бюджета, отбрасывая остальные. Эмпирически, примененный к LLaVA-Next-7B на графическом процессоре NVIDIA TESLA P40, HiRED с бюджетом токенов 20% увеличивает пропускную способность генерации токенов на 4,7, сокращает задержку генерации первого токена на 15 секунд и экономит 2,3 ГБ памяти графического процессора для одного вывода.
English
High-resolution Vision-Language Models (VLMs) have been widely used in
multimodal tasks to enhance accuracy by preserving detailed image information.
However, these models often generate excessive visual tokens due to encoding
multiple partitions of the input image. Processing these excessive visual
tokens is computationally challenging, especially in resource-constrained
environments with commodity GPUs. To support high-resolution images while
meeting resource constraints, we propose High-Resolution Early Dropping
(HiRED), a token-dropping scheme that operates within a fixed token budget
before the Large Language Model (LLM) stage. HiRED can be integrated with
existing high-resolution VLMs in a plug-and-play manner, as it requires no
additional training while still maintaining superior accuracy. We strategically
use the vision encoder's attention in the initial layers to assess the visual
content of each image partition and allocate the token budget accordingly.
Then, using the attention in the final layer, we select the most important
visual tokens from each partition within the allocated budget, dropping the
rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED
with a 20% token budget increases token generation throughput by 4.7, reduces
first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory
for a single inference.Summary
AI-Generated Summary