HiRED: Внимание-управляемое отбрасывание токенов для эффективного вывода моделей высокоразрешающего зрения-языка в ресурсоограниченных средах.

Аннотация

Модели видео-языка высокого разрешения (VLM) широко используются в мультимодальных задачах для повышения точности за счет сохранения детальной информации об изображении. Однако эти модели часто генерируют избыточные визуальные токены из-за кодирования нескольких разделов входного изображения. Обработка этих избыточных визуальных токенов является вычислительно сложной, особенно в условиях ограниченных ресурсов с использованием обычных графических процессоров. Для поддержки изображений высокого разрешения при соблюдении ограничений ресурсов мы предлагаем схему отбрасывания токенов на ранней стадии с высоким разрешением (HiRED), которая работает в рамках фиксированного бюджета токенов до стадии большой языковой модели (LLM). HiRED может быть интегрирован с существующими моделями VLM высокого разрешения путем подключения и использования, поскольку не требует дополнительного обучения, сохраняя при этом превосходную точность. Мы стратегически используем внимание кодера видения в начальных слоях для оценки визуального содержимого каждого раздела изображения и распределения бюджета токенов соответственно. Затем, используя внимание в конечном слое, мы выбираем наиболее важные визуальные токены из каждого раздела в рамках выделенного бюджета, отбрасывая остальные. Эмпирически, примененный к LLaVA-Next-7B на графическом процессоре NVIDIA TESLA P40, HiRED с бюджетом токенов 20% увеличивает пропускную способность генерации токенов на 4,7, сокращает задержку генерации первого токена на 15 секунд и экономит 2,3 ГБ памяти графического процессора для одного вывода.

English

High-resolution Vision-Language Models (VLMs) have been widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate excessive visual tokens due to encoding multiple partitions of the input image. Processing these excessive visual tokens is computationally challenging, especially in resource-constrained environments with commodity GPUs. To support high-resolution images while meeting resource constraints, we propose High-Resolution Early Dropping (HiRED), a token-dropping scheme that operates within a fixed token budget before the Large Language Model (LLM) stage. HiRED can be integrated with existing high-resolution VLMs in a plug-and-play manner, as it requires no additional training while still maintaining superior accuracy. We strategically use the vision encoder's attention in the initial layers to assess the visual content of each image partition and allocate the token budget accordingly. Then, using the attention in the final layer, we select the most important visual tokens from each partition within the allocated budget, dropping the rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED with a 20% token budget increases token generation throughput by 4.7, reduces first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory for a single inference.

HiRED: Внимание-управляемое отбрасывание токенов для эффективного вывода моделей высокоразрешающего зрения-языка в ресурсоограниченных средах.

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

Аннотация

Support