FastVLM: Эффективное кодирование видения для моделей языка видения
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
Авторы: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
Аннотация
Масштабирование разрешения входного изображения является важным для повышения производительности моделей Vision Language (VLM), особенно в задачах понимания изображений с текстом. Однако популярные визуальные кодировщики, такие как ViTs, становятся неэффективными при высоком разрешении из-за большого количества токенов и высокой задержки кодирования, вызванной стековыми слоями самовнимания. На разных операционных разрешениях визионный кодировщик VLM можно оптимизировать по двум осям: сокращение задержки кодирования и минимизация количества визуальных токенов, передаваемых в LLM, тем самым снижая общую задержку. На основе всестороннего анализа эффективности взаимодействия между разрешением изображения, задержкой визионной системы, количеством токенов и размером LLM мы представляем FastVLM, модель, которая достигает оптимизированного компромисса между задержкой, размером модели и точностью. FastVLM включает в себя FastViTHD, новый гибридный визионный кодировщик, разработанный для вывода меньшего количества токенов и значительного сокращения времени кодирования для изображений высокого разрешения. В отличие от предыдущих методов, FastVLM достигает оптимального баланса между количеством визуальных токенов и разрешением изображения исключительно путем масштабирования входного изображения, устраняя необходимость в дополнительной обрезке токенов и упрощая конструкцию модели. В настройке LLaVA-1.5 FastVLM достигает улучшения в 3,2 раза во времени до первого токена (TTFT), сохраняя при этом схожую производительность на бенчмарках VLM по сравнению с предыдущими работами. По сравнению с LLaVa-OneVision при самом высоком разрешении (1152 на 1152), FastVLM достигает сопоставимой производительности на ключевых бенчмарках, таких как SeedBench и MMMU, используя тот же LLM объемом 0,5B, но с временем до первого токена в 85 раз быстрее и визионным кодировщиком в 3,4 раза меньше.
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.Summary
AI-Generated Summary