Введение в моделирование видео-языковых данных.An Introduction to Vision-Language Modeling
В связи с недавней популярностью больших языковых моделей (LLM) было предпринято несколько попыток расширить их до визуальной области. От наличия визуального ассистента, который мог бы проводить нас по незнакомым окружениям, до генеративных моделей, создающих изображения, используя только текстовое описание на высоком уровне, приложения моделей видео-языка (VLM) значительно повлияют на наши отношения с технологиями. Однако существует множество проблем, которые необходимо решить для улучшения надежности этих моделей. В то время как язык является дискретным, визия развивается в гораздо более высокомерном пространстве, в котором концепции не всегда могут быть легко дискретизированы. Для лучшего понимания механики преобразования визии в язык мы представляем это введение в модели видео-языка, которое, мы надеемся, поможет всем, кто хотел бы войти в эту область. Сначала мы представляем, что такое модели видео-языка, как они работают и как их обучать. Затем мы представляем и обсуждаем подходы к оценке моделей видео-языка. Хотя эта работа в первую очередь фокусируется на преобразовании изображений в язык, мы также обсуждаем расширение моделей видео-языка на видео.