Modelos de Linguagem Visual (VLMs) ótimos para inferência precisam de apenas um token visual, mas modelos maiores.
Inference Optimal VLMs Need Only One Visual Token but Larger Models
November 5, 2024
Autores: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
cs.AI
Resumo
Os Modelos de Linguagem Visual (VLMs) têm demonstrado fortes capacidades em várias tarefas de compreensão visual e raciocínio. No entanto, sua implementação no mundo real é frequentemente limitada pela alta latência durante a inferência devido ao substancial poder computacional necessário para processar o grande número de tokens de entrada (predominantemente da imagem) pelo LLM. Para reduzir os custos de inferência, pode-se diminuir o tamanho do LLM ou reduzir o número de tokens de imagem de entrada, sendo este último o foco de muitos trabalhos recentes em torno da compressão de tokens. No entanto, não está claro qual é o trade-off ideal, pois ambos os fatores afetam diretamente o desempenho do VLM. Primeiramente, caracterizamos esse trade-off ideal entre o número de tokens visuais e os parâmetros do LLM estabelecendo leis de escala que capturam variações de desempenho com esses dois fatores. Nossos resultados revelam uma tendência surpreendente: para tarefas de raciocínio visual, o comportamento ótimo de inferência nos VLMs, ou seja, o mínimo erro downstream em qualquer cálculo de inferência fixo, é alcançado ao usar o maior LLM que se encaixa no orçamento de inferência, minimizando o número de tokens visuais - muitas vezes para um único token. Enquanto a literatura de redução de tokens tem se concentrado principalmente em manter o desempenho do modelo base reduzindo modestamente o número de tokens (por exemplo, 5-10 vezes), nossos resultados indicam que o regime de inferência ótimo em termos de cálculo requer operar sob taxas de compressão de tokens ainda mais altas. Com base nessas percepções, damos alguns passos iniciais em direção à construção de abordagens adaptadas para configurações de alta compressão de tokens. O código está disponível em https://github.com/locuslab/llava-token-compression.
English
Vision Language Models (VLMs) have demonstrated strong capabilities across
various visual understanding and reasoning tasks. However, their real-world
deployment is often constrained by high latency during inference due to
substantial compute required to process the large number of input tokens
(predominantly from the image) by the LLM. To reduce inference costs, one can
either downsize the LLM or reduce the number of input image-tokens, the latter
of which has been the focus of many recent works around token compression.
However, it is unclear what the optimal trade-off is, as both the factors
directly affect the VLM performance. We first characterize this optimal
trade-off between the number of visual tokens and LLM parameters by
establishing scaling laws that capture variations in performance with these two
factors. Our results reveal a surprising trend: for visual reasoning tasks, the
inference-optimal behavior in VLMs, i.e., minimum downstream error at any given
fixed inference compute, is achieved when using the largest LLM that fits
within the inference budget while minimizing visual token count - often to a
single token. While the token reduction literature has mainly focused on
maintaining base model performance by modestly reducing the token count (e.g.,
5-10times), our results indicate that the compute-optimal inference regime
requires operating under even higher token compression ratios. Based on these
insights, we take some initial steps towards building approaches tailored for
high token compression settings. Code is available at
https://github.com/locuslab/llava-token-compression.Summary
AI-Generated Summary