視覺語言建模介紹An Introduction to Vision-Language Modeling
隨著大型語言模型(LLMs)近來的普及,已有多項嘗試將其擴展至視覺領域。從具有視覺助理的應用,可引導我們穿越陌生環境,到僅使用高層次文本描述生成圖像的生成模型,視覺語言模型(VLM)的應用將顯著影響我們與技術的關係。然而,有許多挑戰需要應對,以提高這些模型的可靠性。語言是離散的,而視覺則存在於更高維度的空間中,其中概念並非總是容易離散化。為了更好地理解將視覺映射到語言背後的機制,我們提出這份VLM簡介,希望能幫助任何有意進入該領域的人。首先,我們介紹了VLM的定義、工作原理以及訓練方法。接著,我們提出並討論評估VLM的方法。雖然這份工作主要聚焦於將圖像映射到語言,我們也討論了將VLM擴展至影片的可能性。