Оптимальные для вывода VLM требуют только одного визуального токена, но более крупные модели.
Inference Optimal VLMs Need Only One Visual Token but Larger Models
November 5, 2024
Авторы: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
cs.AI
Аннотация
Модели языка зрения (VLM) продемонстрировали высокие возможности в различных задачах визуального понимания и рассуждений. Однако их применение в реальном мире часто ограничено высокой задержкой во время вывода из-за значительных вычислительных затрат, необходимых для обработки большого количества входных токенов (преимущественно изображения) LLM. Для снижения затрат на вывод можно либо уменьшить размер LLM, либо уменьшить количество входных токенов изображения, последнее стало объектом изучения многих недавних работ по сжатию токенов. Однако неясно, какой оптимальный компромисс, поскольку оба фактора прямо влияют на производительность VLM. Сначала мы характеризуем этот оптимальный компромисс между количеством визуальных токенов и параметрами LLM, установив законы масштабирования, отражающие изменения производительности с учетом этих двух факторов. Наши результаты показывают удивительную тенденцию: для задач визуального рассуждения оптимальное поведение при выводе в VLM, т.е. минимальная ошибка на любом фиксированном вычислительном ресурсе вывода, достигается при использовании самого большого LLM, который укладывается в бюджет вывода, минимизируя количество визуальных токенов - часто до одного токена. В то время как литература по сокращению токенов в основном сосредоточена на поддержании производительности базовой модели путем умеренного сокращения количества токенов (например, в 5-10 раз), наши результаты показывают, что оптимальный режим вывода с точки зрения вычислительных затрат требует работы даже при более высоких коэффициентах сжатия токенов. Основываясь на этих выводах, мы предпринимаем первые шаги к созданию подходов, адаптированных для настроек с высоким сжатием токенов. Код доступен по адресу https://github.com/locuslab/llava-token-compression.
English
Vision Language Models (VLMs) have demonstrated strong capabilities across
various visual understanding and reasoning tasks. However, their real-world
deployment is often constrained by high latency during inference due to
substantial compute required to process the large number of input tokens
(predominantly from the image) by the LLM. To reduce inference costs, one can
either downsize the LLM or reduce the number of input image-tokens, the latter
of which has been the focus of many recent works around token compression.
However, it is unclear what the optimal trade-off is, as both the factors
directly affect the VLM performance. We first characterize this optimal
trade-off between the number of visual tokens and LLM parameters by
establishing scaling laws that capture variations in performance with these two
factors. Our results reveal a surprising trend: for visual reasoning tasks, the
inference-optimal behavior in VLMs, i.e., minimum downstream error at any given
fixed inference compute, is achieved when using the largest LLM that fits
within the inference budget while minimizing visual token count - often to a
single token. While the token reduction literature has mainly focused on
maintaining base model performance by modestly reducing the token count (e.g.,
5-10times), our results indicate that the compute-optimal inference regime
requires operating under even higher token compression ratios. Based on these
insights, we take some initial steps towards building approaches tailored for
high token compression settings. Code is available at
https://github.com/locuslab/llava-token-compression.Summary
AI-Generated Summary