FastVLM: Effiziente Bildcodierung für Bildsprachmodelle
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
Autoren: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
Zusammenfassung
Die Skalierung der Eingabebildauflösung ist entscheidend für die Verbesserung der Leistung von Vision Language Models (VLMs), insbesondere bei textreichen Bildverstehensaufgaben. Beliebte visuelle Encoder wie ViTs werden jedoch bei hohen Auflösungen aufgrund der großen Anzahl von Tokens und der hohen Kodierungsverzögerung durch gestapelte Self-Attention-Schichten ineffizient. Bei verschiedenen Betriebsauflösungen kann der Vision-Encoder eines VLMs entlang zweier Achsen optimiert werden: Reduzierung der Kodierungsverzögerung und Minimierung der Anzahl visueller Tokens, die an das LLM übergeben werden, wodurch die Gesamtverzögerung verringert wird. Basierend auf einer umfassenden Effizienzanalyse des Zusammenspiels zwischen Bildauflösung, Vision-Verzögerung, Token-Anzahl und LLM-Größe stellen wir FastVLM vor, ein Modell, das einen optimierten Kompromiss zwischen Verzögerung, Modellgröße und Genauigkeit erreicht. FastVLM integriert FastViTHD, einen neuartigen hybriden Vision-Encoder, der dazu konzipiert ist, weniger Tokens auszugeben und die Kodierungszeit für hochauflösende Bilder signifikant zu reduzieren. Im Gegensatz zu früheren Methoden erzielt FastVLM das optimale Gleichgewicht zwischen visueller Token-Anzahl und Bildauflösung allein durch Skalierung des Eingabebildes, was die Notwendigkeit für zusätzliches Token-Pruning beseitigt und das Modell-Design vereinfacht. Im LLaVA-1.5-Setup erzielt FastVLM eine 3,2-fache Verbesserung der Zeit bis zum ersten Token (TTFT), während es im Vergleich zu früheren Arbeiten eine ähnliche Leistung bei VLM-Benchmarks beibehält. Im Vergleich zu LLaVa-OneVision bei höchster Auflösung (1152x1152) erreicht FastVLM eine vergleichbare Leistung bei wichtigen Benchmarks wie SeedBench und MMMU, unter Verwendung desselben 0,5B LLM, jedoch mit einer 85-fach schnelleren TTFT und einem Vision-Encoder, der 3,4-mal kleiner ist.
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.Summary
AI-Generated Summary