SmolVLM:小型で効率的なマルチモーダルモデルの再定義SmolVLM: Redefining small and efficient multimodal models
大規模な視覚言語モデル(VLM)は優れた性能を発揮しますが、多大な計算リソースを必要とするため、モバイルやエッジデバイスへの展開が制限されています。小型のVLMは通常、大規模モデルの設計選択を模倣しており、広範な画像トークン化などによりGPUメモリの使用効率が低く、オンデバイスアプリケーションにおける実用性が制約されています。 私たちは、リソース効率の高い推論に特化した一連のコンパクトなマルチモーダルモデルであるSmolVLMを紹介します。低計算オーバーヘッドに最適化されたアーキテクチャ構成、トークン化戦略、データキュレーションを体系的に探求しました。これにより、最小限のメモリフットプリントで画像およびビデオタスクにおいて大幅な性能向上をもたらす重要な設計選択を特定しました。 私たちの最小モデルであるSmolVLM-256Mは、推論中に1GB未満のGPUメモリを使用し、18ヶ月の開発ギャップがあるにもかかわらず、300倍大きいIdefics-80Bモデルを上回ります。最大モデルである2.2Bパラメータのモデルは、GPUメモリを2倍消費する最先端のVLMと同等の性能を発揮します。SmolVLMモデルは静止画像を超え、堅牢なビデオ理解能力を示します。 私たちの結果は、戦略的なアーキテクチャ最適化、効率的で積極的なトークン化、そして注意深くキュレーションされたトレーニングデータが、マルチモーダル性能を大幅に向上させ、実用的でエネルギー効率の高い展開を大幅に小さなスケールで実現することを強調しています。