Une introduction à la modélisation vision-langageAn Introduction to Vision-Language Modeling
Suite à la popularité récente des modèles de langage à grande échelle (LLMs), plusieurs tentatives ont été faites pour les étendre au domaine visuel. Qu'il s'agisse d'un assistant visuel capable de nous guider dans des environnements inconnus ou de modèles génératifs produisant des images à partir d'une simple description textuelle de haut niveau, les applications des modèles vision-langage (VLM) auront un impact significatif sur notre relation avec la technologie. Cependant, de nombreux défis doivent être relevés pour améliorer la fiabilité de ces modèles. Alors que le langage est discret, la vision évolue dans un espace de bien plus haute dimension où les concepts ne peuvent pas toujours être facilement discrétisés. Pour mieux comprendre les mécanismes sous-jacents à la cartographie de la vision vers le langage, nous présentons cette introduction aux VLMs, que nous espérons utile à toute personne souhaitant s'engager dans ce domaine. Tout d'abord, nous introduisons ce que sont les VLMs, leur fonctionnement et leur entraînement. Ensuite, nous présentons et discutons des approches pour évaluer les VLMs. Bien que ce travail se concentre principalement sur la cartographie d'images vers le langage, nous abordons également l'extension des VLMs aux vidéos.