视觉-语言建模简介An Introduction to Vision-Language Modeling
随着大型语言模型(LLMs)近来的流行,人们开始尝试将其扩展到视觉领域。从拥有能够引导我们穿越陌生环境的视觉助手,到使用仅高层文本描述生成图像的生成模型,视觉语言模型(VLM)的应用将显著影响我们与技术的关系。然而,有许多挑战需要解决,以提高这些模型的可靠性。语言是离散的,而视觉则存在于一个更高维度的空间中,其中概念并非总是容易离散化。为了更好地理解将视觉映射到语言背后的机制,我们提出了这篇介绍VLMs的文章,希望能帮助任何希望进入该领域的人。首先,我们介绍了VLMs是什么,它们如何工作以及如何训练它们。然后,我们提出并讨论了评估VLMs的方法。虽然这项工作主要集中在将图像映射到语言上,但我们也讨论了将VLMs扩展到视频的可能性。