Los VLMs óptimos para inferencia solo necesitan un token visual pero modelos más grandes.
Inference Optimal VLMs Need Only One Visual Token but Larger Models
November 5, 2024
Autores: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter
cs.AI
Resumen
Los Modelos de Lenguaje Visual (VLMs) han demostrado sólidas capacidades en diversas tareas de comprensión y razonamiento visual. Sin embargo, su implementación en el mundo real suele estar limitada por una alta latencia durante la inferencia debido al considerable cómputo necesario para procesar el gran número de tokens de entrada (principalmente de la imagen) por el LLM. Para reducir los costos de inferencia, se puede disminuir el tamaño del LLM o reducir el número de tokens de imagen de entrada, siendo este último el enfoque de muchos trabajos recientes en torno a la compresión de tokens. Sin embargo, no está claro cuál es el equilibrio óptimo, ya que ambos factores afectan directamente el rendimiento del VLM. En primer lugar, caracterizamos este equilibrio óptimo entre el número de tokens visuales y los parámetros del LLM mediante el establecimiento de leyes de escala que capturan las variaciones en el rendimiento con estos dos factores. Nuestros resultados revelan una tendencia sorprendente: para tareas de razonamiento visual, el comportamiento óptimo en la inferencia en los VLMs, es decir, el error mínimo aguas abajo en cualquier cómputo de inferencia fijo dado, se logra al utilizar el LLM más grande que quepa dentro del presupuesto de inferencia al tiempo que se minimiza el recuento de tokens visuales, a menudo hasta un solo token. Mientras que la literatura de reducción de tokens se ha centrado principalmente en mantener el rendimiento del modelo base reduciendo modestamente el recuento de tokens (por ejemplo, 5-10 veces), nuestros resultados indican que el régimen de inferencia óptimo en cómputo requiere operar bajo ratios de compresión de tokens aún más altos. Basándonos en estas percepciones, damos algunos pasos iniciales hacia la construcción de enfoques adaptados para entornos de alta compresión de tokens. El código está disponible en https://github.com/locuslab/llava-token-compression.
English
Vision Language Models (VLMs) have demonstrated strong capabilities across
various visual understanding and reasoning tasks. However, their real-world
deployment is often constrained by high latency during inference due to
substantial compute required to process the large number of input tokens
(predominantly from the image) by the LLM. To reduce inference costs, one can
either downsize the LLM or reduce the number of input image-tokens, the latter
of which has been the focus of many recent works around token compression.
However, it is unclear what the optimal trade-off is, as both the factors
directly affect the VLM performance. We first characterize this optimal
trade-off between the number of visual tokens and LLM parameters by
establishing scaling laws that capture variations in performance with these two
factors. Our results reveal a surprising trend: for visual reasoning tasks, the
inference-optimal behavior in VLMs, i.e., minimum downstream error at any given
fixed inference compute, is achieved when using the largest LLM that fits
within the inference budget while minimizing visual token count - often to a
single token. While the token reduction literature has mainly focused on
maintaining base model performance by modestly reducing the token count (e.g.,
5-10times), our results indicate that the compute-optimal inference regime
requires operating under even higher token compression ratios. Based on these
insights, we take some initial steps towards building approaches tailored for
high token compression settings. Code is available at
https://github.com/locuslab/llava-token-compression.Summary
AI-Generated Summary