SnelleVLM: Efficiënte Visuele Codering voor Visie-Taalmodellen
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
Auteurs: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
Samenvatting
Het schalen van de resolutie van de invoerafbeelding is essentieel voor het verbeteren van de prestaties van Vision Language Models (VLM's), met name bij taken voor het begrijpen van tekstrijke afbeeldingen. Populaire visuele encoders zoals ViTs worden echter inefficiënt bij hoge resoluties vanwege het grote aantal tokens en de hoge coderingslatentie veroorzaakt door gestapelde zelfaandachtslagen. Bij verschillende operationele resoluties kan de visie-encoder van een VLM worden geoptimaliseerd langs twee assen: het verminderen van de coderingslatentie en het minimaliseren van het aantal visuele tokens dat naar de LLM wordt doorgegeven, waardoor de algehele latentie wordt verlaagd. Op basis van een uitgebreide efficiëntieanalyse van de wisselwerking tussen beeldresolutie, visuele latentie, aantal tokens en LLM-grootte, introduceren we FastVLM, een model dat een geoptimaliseerd compromis bereikt tussen latentie, modelgrootte en nauwkeurigheid. FastVLM bevat FastViTHD, een nieuw hybride visie-encoder die is ontworpen om minder tokens uit te voeren en de codeertijd aanzienlijk te verminderen voor afbeeldingen met hoge resolutie. In tegenstelling tot eerdere methoden bereikt FastVLM de optimale balans tussen het aantal visuele tokens en de beeldresolutie uitsluitend door het schalen van de invoerafbeelding, waardoor de noodzaak voor extra tokenpruning wordt geëlimineerd en het modelontwerp wordt vereenvoudigd. In de LLaVA-1.5-opstelling behaalt FastVLM een verbetering van 3,2 keer in de tijd tot de eerste token (TTFT) terwijl het vergelijkbare prestaties behoudt op VLM-benchmarks in vergelijking met eerdere werken. Vergeleken met LLaVa-OneVision op de hoogste resolutie (1152 keer 1152), behaalt FastVLM vergelijkbare prestaties op belangrijke benchmarks zoals SeedBench en MMMU, met behulp van dezelfde 0,5B LLM, maar met 85 keer snellere TTFT en een visie-encoder die 3,4 keer kleiner is.
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.