Jina CLIP: Ваша модель CLIP также является вашим поисковым алгоритмом текста.Jina CLIP: Your CLIP Model Is Also Your Text Retriever
Контрастное предварительное обучение языково-изображенческих моделей (CLIP) широко используется для обучения моделей, выравнивающих изображения и тексты в общем векторном пространстве путем отображения их в векторы фиксированного размера. Эти модели являются ключевыми для мультимодального поиска информации и смежных задач. Однако модели CLIP обычно показывают более низкую производительность в задачах только с текстом по сравнению с специализированными текстовыми моделями. Это приводит к неэффективности для систем поиска информации, которые используют отдельные векторные представления и модели для задач только с текстом и мультимодальных задач. Мы предлагаем новый метод контрастного многозадачного обучения для решения этой проблемы, который мы используем для обучения модели jina-clip-v1 с целью достижения передового уровня производительности как в задачах поиска текста и изображений, так и в задачах поиска текста.