ChatPaper.aiChatPaper

Jina CLIP: Ваша модель CLIP также является вашим поисковым алгоритмом текста.

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

May 30, 2024
Авторы: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI

Аннотация

Контрастное предварительное обучение языково-изображенческих моделей (CLIP) широко используется для обучения моделей, выравнивающих изображения и тексты в общем векторном пространстве путем отображения их в векторы фиксированного размера. Эти модели являются ключевыми для мультимодального поиска информации и смежных задач. Однако модели CLIP обычно показывают более низкую производительность в задачах только с текстом по сравнению с специализированными текстовыми моделями. Это приводит к неэффективности для систем поиска информации, которые используют отдельные векторные представления и модели для задач только с текстом и мультимодальных задач. Мы предлагаем новый метод контрастного многозадачного обучения для решения этой проблемы, который мы используем для обучения модели jina-clip-v1 с целью достижения передового уровня производительности как в задачах поиска текста и изображений, так и в задачах поиска текста.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models to align images and texts in a common embedding space by mapping them to fixed-sized vectors. These models are key to multimodal information retrieval and related tasks. However, CLIP models generally underperform in text-only tasks compared to specialized text models. This creates inefficiencies for information retrieval systems that keep separate embeddings and models for text-only and multimodal tasks. We propose a novel, multi-task contrastive training method to address this issue, which we use to train the jina-clip-v1 model to achieve the state-of-the-art performance on both text-image and text-text retrieval tasks.

Summary

AI-Generated Summary

PDF371December 12, 2024