FastVLM: Codificación Eficiente de Visión para Modelos de Lenguaje Visual
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
Autores: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
Resumen
Escalar la resolución de la imagen de entrada es esencial para mejorar el rendimiento de los Modelos de Lenguaje Visual (VLMs), especialmente en tareas de comprensión de imágenes ricas en texto. Sin embargo, los codificadores visuales populares como ViTs se vuelven ineficientes en altas resoluciones debido al gran número de tokens y la alta latencia de codificación causada por las capas de autoatención apiladas. En diferentes resoluciones operativas, el codificador visual de un VLM puede optimizarse a lo largo de dos ejes: reduciendo la latencia de codificación y minimizando el número de tokens visuales enviados al LLM, disminuyendo así la latencia general. Basándonos en un análisis exhaustivo de eficiencia de la interacción entre la resolución de la imagen, la latencia visual, el recuento de tokens y el tamaño del LLM, presentamos FastVLM, un modelo que logra un equilibrio optimizado entre latencia, tamaño del modelo y precisión. FastVLM incorpora FastViTHD, un nuevo codificador visual híbrido diseñado para producir menos tokens y reducir significativamente el tiempo de codificación para imágenes de alta resolución. A diferencia de métodos anteriores, FastVLM logra el equilibrio óptimo entre el recuento de tokens visuales y la resolución de la imagen únicamente escalando la imagen de entrada, eliminando la necesidad de poda adicional de tokens y simplificando el diseño del modelo. En la configuración LLaVA-1.5, FastVLM logra una mejora de 3.2 veces en el tiempo hasta el primer token (TTFT) manteniendo un rendimiento similar en comparación con trabajos anteriores en los benchmarks de VLM. En comparación con LLaVa-OneVision en la resolución más alta (1152x1152), FastVLM logra un rendimiento comparable en benchmarks clave como SeedBench y MMMU, utilizando el mismo LLM de 0.5B, pero con un TTFT 85 veces más rápido y un codificador visual que es 3.4 veces más pequeño.
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.Summary
AI-Generated Summary