ChatPaper.aiChatPaper

ビジョン・ランゲージモデルを構築する際に重要なことは何か?

What matters when building vision-language models?

May 3, 2024
著者: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI

要旨

大規模言語モデルとビジョントランスフォーマーの進化に伴い、視覚言語モデル(VLM)への関心が高まっています。このテーマに関する文献は豊富に存在するものの、VLMの設計に関する重要な決定がしばしば正当化されていないことが観察されます。これらの根拠のない決定は、どの選択がモデルの性能向上に寄与するのかを特定することを困難にし、分野の進展を妨げていると私たちは主張します。この問題に対処するため、事前学習済みモデル、アーキテクチャの選択、データ、および訓練方法に関する広範な実験を行いました。得られた知見を統合し、80億パラメータの効率的な基盤VLMであるIdefics2を開発しました。Idefics2は、そのサイズカテゴリーにおいて、さまざまなマルチモーダルベンチマークで最先端の性能を達成し、しばしばその4倍のサイズのモデルと同等の性能を示します。私たちは、モデル(ベース、指示付き、チャット)とその訓練用に作成されたデータセットを公開します。
English
The growing interest in vision-language models (VLMs) has been driven by improvements in large language models and vision transformers. Despite the abundance of literature on this subject, we observe that critical decisions regarding the design of VLMs are often not justified. We argue that these unsupported decisions impede progress in the field by making it difficult to identify which choices improve model performance. To address this issue, we conduct extensive experiments around pre-trained models, architecture choice, data, and training methods. Our consolidation of findings includes the development of Idefics2, an efficient foundational VLM of 8 billion parameters. Idefics2 achieves state-of-the-art performance within its size category across various multimodal benchmarks, and is often on par with models four times its size. We release the model (base, instructed, and chat) along with the datasets created for its training.

Summary

AI-Generated Summary

PDF1043December 15, 2024