Jina CLIP: 당신의 CLIP 모델은 텍스트 검색기이기도 합니다
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
May 30, 2024
저자: Andreas Koukounas, Georgios Mastrapas, Michael Günther, Bo Wang, Scott Martens, Isabelle Mohr, Saba Sturua, Mohammad Kalim Akram, Joan Fontanals Martínez, Saahil Ognawala, Susana Guzman, Maximilian Werk, Nan Wang, Han Xiao
cs.AI
초록
대조적 언어-이미지 사전학습(Contrastive Language-Image Pretraining, CLIP)은 이미지와 텍스트를 고정 크기의 벡터로 매핑하여 공통 임베딩 공간에서 정렬하도록 모델을 학습시키는 데 널리 사용됩니다. 이러한 모델은 멀티모달 정보 검색 및 관련 작업에서 핵심적인 역할을 합니다. 그러나 CLIP 모델은 일반적으로 전용 텍스트 모델에 비해 텍스트 전용 작업에서 성능이 떨어집니다. 이로 인해 텍스트 전용 작업과 멀티모달 작업을 위해 별도의 임베딩과 모델을 유지하는 정보 검색 시스템에서는 비효율이 발생합니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 다중 작업 대조 학습 방법을 제안하며, 이를 통해 jina-clip-v1 모델을 학습시켜 텍스트-이미지 및 텍스트-텍스트 검색 작업 모두에서 최첨단 성능을 달성합니다.
English
Contrastive Language-Image Pretraining (CLIP) is widely used to train models
to align images and texts in a common embedding space by mapping them to
fixed-sized vectors. These models are key to multimodal information retrieval
and related tasks. However, CLIP models generally underperform in text-only
tasks compared to specialized text models. This creates inefficiencies for
information retrieval systems that keep separate embeddings and models for
text-only and multimodal tasks. We propose a novel, multi-task contrastive
training method to address this issue, which we use to train the jina-clip-v1
model to achieve the state-of-the-art performance on both text-image and
text-text retrieval tasks.Summary
AI-Generated Summary