ビジョン・ランゲージモデルを構築する際に重要なことは何か?What matters when building vision-language models?
大規模言語モデルとビジョントランスフォーマーの進化に伴い、視覚言語モデル(VLM)への関心が高まっています。このテーマに関する文献は豊富に存在するものの、VLMの設計に関する重要な決定がしばしば正当化されていないことが観察されます。これらの根拠のない決定は、どの選択がモデルの性能向上に寄与するのかを特定することを困難にし、分野の進展を妨げていると私たちは主張します。この問題に対処するため、事前学習済みモデル、アーキテクチャの選択、データ、および訓練方法に関する広範な実験を行いました。得られた知見を統合し、80億パラメータの効率的な基盤VLMであるIdefics2を開発しました。Idefics2は、そのサイズカテゴリーにおいて、さまざまなマルチモーダルベンチマークで最先端の性能を達成し、しばしばその4倍のサイズのモデルと同等の性能を示します。私たちは、モデル(ベース、指示付き、チャット)とその訓練用に作成されたデータセットを公開します。