Modelos de Linguagem Visual (VLMs) ótimos para inferência precisam de apenas um token visual, mas modelos maiores.

Resumo

Os Modelos de Linguagem Visual (VLMs) têm demonstrado fortes capacidades em várias tarefas de compreensão visual e raciocínio. No entanto, sua implementação no mundo real é frequentemente limitada pela alta latência durante a inferência devido ao substancial poder computacional necessário para processar o grande número de tokens de entrada (predominantemente da imagem) pelo LLM. Para reduzir os custos de inferência, pode-se diminuir o tamanho do LLM ou reduzir o número de tokens de imagem de entrada, sendo este último o foco de muitos trabalhos recentes em torno da compressão de tokens. No entanto, não está claro qual é o trade-off ideal, pois ambos os fatores afetam diretamente o desempenho do VLM. Primeiramente, caracterizamos esse trade-off ideal entre o número de tokens visuais e os parâmetros do LLM estabelecendo leis de escala que capturam variações de desempenho com esses dois fatores. Nossos resultados revelam uma tendência surpreendente: para tarefas de raciocínio visual, o comportamento ótimo de inferência nos VLMs, ou seja, o mínimo erro downstream em qualquer cálculo de inferência fixo, é alcançado ao usar o maior LLM que se encaixa no orçamento de inferência, minimizando o número de tokens visuais - muitas vezes para um único token. Enquanto a literatura de redução de tokens tem se concentrado principalmente em manter o desempenho do modelo base reduzindo modestamente o número de tokens (por exemplo, 5-10 vezes), nossos resultados indicam que o regime de inferência ótimo em termos de cálculo requer operar sob taxas de compressão de tokens ainda mais altas. Com base nessas percepções, damos alguns passos iniciais em direção à construção de abordagens adaptadas para configurações de alta compressão de tokens. O código está disponível em https://github.com/locuslab/llava-token-compression.

English

Vision Language Models (VLMs) have demonstrated strong capabilities across various visual understanding and reasoning tasks. However, their real-world deployment is often constrained by high latency during inference due to substantial compute required to process the large number of input tokens (predominantly from the image) by the LLM. To reduce inference costs, one can either downsize the LLM or reduce the number of input image-tokens, the latter of which has been the focus of many recent works around token compression. However, it is unclear what the optimal trade-off is, as both the factors directly affect the VLM performance. We first characterize this optimal trade-off between the number of visual tokens and LLM parameters by establishing scaling laws that capture variations in performance with these two factors. Our results reveal a surprising trend: for visual reasoning tasks, the inference-optimal behavior in VLMs, i.e., minimum downstream error at any given fixed inference compute, is achieved when using the largest LLM that fits within the inference budget while minimizing visual token count - often to a single token. While the token reduction literature has mainly focused on maintaining base model performance by modestly reducing the token count (e.g., 5-10times), our results indicate that the compute-optimal inference regime requires operating under even higher token compression ratios. Based on these insights, we take some initial steps towards building approaches tailored for high token compression settings. Code is available at https://github.com/locuslab/llava-token-compression.

Modelos de Linguagem Visual (VLMs) ótimos para inferência precisam de apenas um token visual, mas modelos maiores.

Inference Optimal VLMs Need Only One Visual Token but Larger Models

Resumo

Support