ビジョン・ランゲージモデリング入門An Introduction to Vision-Language Modeling
大規模言語モデル(LLMs)の最近の人気に続き、視覚領域への拡張がいくつか試みられています。不慣れな環境を案内する視覚アシスタントから、高レベルのテキスト記述のみを使用して画像を生成する生成モデルまで、視覚言語モデル(VLM)の応用は、私たちとテクノロジーの関係に大きな影響を与えるでしょう。しかし、これらのモデルの信頼性を向上させるためには、多くの課題に対処する必要があります。言語は離散的であるのに対し、視覚ははるかに高次元の空間で進化し、概念を常に簡単に離散化できるとは限りません。視覚と言語のマッピングの背後にあるメカニズムをよりよく理解するために、このVLMの入門を紹介します。これは、この分野に参入したいと考えている人々の助けになることを願っています。まず、VLMとは何か、どのように機能するか、そしてどのように訓練するかを紹介します。次に、VLMを評価するためのアプローチを提示し、議論します。この研究は主に画像と言語のマッピングに焦点を当てていますが、VLMをビデオに拡張することについても議論します。