Una Introducción al Modelado Visión-LenguajeAn Introduction to Vision-Language Modeling
Tras la reciente popularidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), se han realizado varios intentos para extenderlos al dominio visual. Desde contar con un asistente visual que pueda guiarnos en entornos desconocidos hasta modelos generativos que producen imágenes utilizando únicamente una descripción textual de alto nivel, las aplicaciones de los modelos de visión y lenguaje (VLM, por sus siglas en inglés) tendrán un impacto significativo en nuestra relación con la tecnología. Sin embargo, existen muchos desafíos que deben abordarse para mejorar la confiabilidad de estos modelos. Mientras que el lenguaje es discreto, la visión se desarrolla en un espacio de dimensiones mucho más altas en el que los conceptos no siempre pueden discretizarse fácilmente. Para comprender mejor los mecanismos detrás del mapeo de la visión al lenguaje, presentamos esta introducción a los VLMs, que esperamos sea útil para cualquier persona que desee adentrarse en este campo. Primero, introducimos qué son los VLMs, cómo funcionan y cómo entrenarlos. Luego, presentamos y discutimos enfoques para evaluar los VLMs. Aunque este trabajo se centra principalmente en el mapeo de imágenes a lenguaje, también discutimos la extensión de los VLMs a videos.