FastVLM : Encodage de Vision Efficace pour les Modèles de Langage Visuel
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
Auteurs: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
Résumé
La mise à l'échelle de la résolution de l'image d'entrée est essentielle pour améliorer les performances des Modèles Vision Langage (MVL), en particulier dans les tâches de compréhension d'images riches en texte. Cependant, les codeurs visuels populaires tels que les Transformers Vision (ViTs) deviennent inefficaces à haute résolution en raison du grand nombre de jetons et de la latence d'encodage élevée causée par les couches d'auto-attention empilées. À différentes résolutions opérationnelles, le codeur visuel d'un MVL peut être optimisé le long de deux axes : réduire la latence d'encodage et minimiser le nombre de jetons visuels transmis au Modèle Langage (ML), réduisant ainsi la latence globale. Sur la base d'une analyse complète de l'efficacité de l'interaction entre la résolution de l'image, la latence visuelle, le nombre de jetons et la taille du ML, nous introduisons FastVLM, un modèle qui atteint un compromis optimisé entre la latence, la taille du modèle et la précision. FastVLM intègre FastViTHD, un nouveau codeur visuel hybride conçu pour produire moins de jetons et réduire significativement le temps d'encodage pour les images haute résolution. Contrairement aux méthodes précédentes, FastVLM atteint l'équilibre optimal entre le nombre de jetons visuels et la résolution de l'image uniquement en mettant à l'échelle l'image d'entrée, éliminant ainsi le besoin d'élagage de jetons supplémentaire et simplifiant la conception du modèle. Dans la configuration LLaVA-1.5, FastVLM réalise une amélioration de 3,2 fois du temps jusqu'au premier jeton (TTFT) tout en maintenant des performances similaires sur les bancs d'essai des MVL par rapport aux travaux antérieurs. Comparé à LLaVa-OneVision à la résolution la plus élevée (1152 fois 1152), FastVLM atteint des performances comparables sur des bancs d'essai clés comme SeedBench et MMMU, en utilisant le même ML de 0,5 milliard, mais avec un TTFT 85 fois plus rapide et un codeur visuel 3,4 fois plus petit.
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.Summary
AI-Generated Summary