SmolVLM:小型で効率的なマルチモーダルモデルの再定義
SmolVLM: Redefining small and efficient multimodal models
April 7, 2025
著者: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf
cs.AI
要旨
大規模な視覚言語モデル(VLM)は優れた性能を発揮しますが、多大な計算リソースを必要とするため、モバイルやエッジデバイスへの展開が制限されています。小型のVLMは通常、大規模モデルの設計選択を模倣しており、広範な画像トークン化などによりGPUメモリの使用効率が低く、オンデバイスアプリケーションにおける実用性が制約されています。
私たちは、リソース効率の高い推論に特化した一連のコンパクトなマルチモーダルモデルであるSmolVLMを紹介します。低計算オーバーヘッドに最適化されたアーキテクチャ構成、トークン化戦略、データキュレーションを体系的に探求しました。これにより、最小限のメモリフットプリントで画像およびビデオタスクにおいて大幅な性能向上をもたらす重要な設計選択を特定しました。
私たちの最小モデルであるSmolVLM-256Mは、推論中に1GB未満のGPUメモリを使用し、18ヶ月の開発ギャップがあるにもかかわらず、300倍大きいIdefics-80Bモデルを上回ります。最大モデルである2.2Bパラメータのモデルは、GPUメモリを2倍消費する最先端のVLMと同等の性能を発揮します。SmolVLMモデルは静止画像を超え、堅牢なビデオ理解能力を示します。
私たちの結果は、戦略的なアーキテクチャ最適化、効率的で積極的なトークン化、そして注意深くキュレーションされたトレーニングデータが、マルチモーダル性能を大幅に向上させ、実用的でエネルギー効率の高い展開を大幅に小さなスケールで実現することを強調しています。
English
Large Vision-Language Models (VLMs) deliver exceptional performance but
require significant computational resources, limiting their deployment on
mobile and edge devices. Smaller VLMs typically mirror design choices of larger
models, such as extensive image tokenization, leading to inefficient GPU memory
usage and constrained practicality for on-device applications.
We introduce SmolVLM, a series of compact multimodal models specifically
engineered for resource-efficient inference. We systematically explore
architectural configurations, tokenization strategies, and data curation
optimized for low computational overhead. Through this, we identify key design
choices that yield substantial performance gains on image and video tasks with
minimal memory footprints.
Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during
inference and outperforms the 300-times larger Idefics-80B model, despite an
18-month development gap. Our largest model, at 2.2B parameters, rivals
state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend
beyond static images, demonstrating robust video comprehension capabilities.
Our results emphasize that strategic architectural optimizations, aggressive
yet efficient tokenization, and carefully curated training data significantly
enhance multimodal performance, facilitating practical, energy-efficient
deployments at significantly smaller scales.Summary
AI-Generated Summary