FastVLM: ビジョン言語モデル向けの効率的なビジョンエンコーディング
FastVLM: Efficient Vision Encoding for Vision Language Models
December 17, 2024
著者: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari
cs.AI
要旨
ビジョン言語モデル(VLM)の性能を向上させるために、入力画像解像度のスケーリングは重要です、特にテキスト豊富な画像理解タスクにおいて。しかし、ViTsなどの一般的なビジュアルエンコーダは、高解像度では効率が悪くなります。これは、大量のトークンとスタックされたセルフアテンション層による高いエンコード待ち時間に起因します。VLMのビジョンエンコーダは、異なる動作解像度において、エンコード待ち時間を削減し、LLMに渡されるビジュアルトークンの数を最小限に抑えることで、全体の待ち時間を低下させるという2つの軸で最適化できます。画像解像度、ビジョン待ち時間、トークン数、およびLLMサイズの相互作用の包括的な効率分析に基づき、私たちはFastVLMを導入します。これは、待ち時間、モデルサイズ、および精度の間の最適なトレードオフを実現するモデルです。FastVLMには、高解像度画像のためにトークン数を減らし、エンコード時間を大幅に短縮するように設計された革新的なハイブリッドビジョンエンコーダであるFastViTHDを組み込んでいます。従来の手法とは異なり、FastVLMは、入力画像のスケーリングだけでビジュアルトークン数と画像解像度の最適なバランスを実現し、追加のトークンの剪定を必要とせず、モデル設計を単純化します。LLaVA-1.5セットアップでは、FastVLMは、従来の作品と比較して、VLMのベンチマークで同様のパフォーマンスを維持しながら、最初のトークンまでの時間(TTFT)を3.2倍改善します。最高解像度(1152×1152)のLLaVa-OneVisionと比較して、FastVLMは、SeedBenchやMMMUなどの主要なベンチマークで同等のパフォーマンスを達成し、0.5BのLLMを使用しつつ、TTFTが85倍速く、ビジョンエンコーダが3.4倍小さくなります。
English
Scaling the input image resolution is essential for enhancing the performance
of Vision Language Models (VLMs), particularly in text-rich image understanding
tasks. However, popular visual encoders such as ViTs become inefficient at high
resolutions due to the large number of tokens and high encoding latency caused
by stacked self-attention layers. At different operational resolutions, the
vision encoder of a VLM can be optimized along two axes: reducing encoding
latency and minimizing the number of visual tokens passed to the LLM, thereby
lowering overall latency. Based on a comprehensive efficiency analysis of the
interplay between image resolution, vision latency, token count, and LLM size,
we introduce FastVLM, a model that achieves an optimized trade-off between
latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel
hybrid vision encoder designed to output fewer tokens and significantly reduce
encoding time for high-resolution images. Unlike previous methods, FastVLM
achieves the optimal balance between visual token count and image resolution
solely by scaling the input image, eliminating the need for additional token
pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM
achieves 3.2times improvement in time-to-first-token (TTFT) while
maintaining similar performance on VLM benchmarks compared to prior works.
Compared to LLaVa-OneVision at the highest resolution (1152times1152),
FastVLM achieves comparable performance on key benchmarks like SeedBench and
MMMU, using the same 0.5B LLM, but with 85times faster TTFT and a vision
encoder that is 3.4times smaller.Summary
AI-Generated Summary