Jina-ColBERT-v2: 일반용 다국어 늦은 상호작용 검색기
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever
August 29, 2024
저자: Rohan Jha, Bo Wang, Michael Günther, Saba Sturua, Mohammad Kalim Akram, Han Xiao
cs.AI
초록
ColBERT와 같은 다중 벡터 밀집 모델은 정보 검색에서 매우 효과적임이 입증되었습니다. ColBERT의 늦은 상호작용 점수는 바이-인코더 아키텍처와 최근 색인 및 검색 최적화 덕분에 교차 인코더에서 볼 수 있는 공동 쿼리-문서 주의를 근접하게 근사하면서 전통적인 밀집 검색 모델에 가까운 추론 효율성을 유지합니다. 본 논문에서는 ColBERT 모델 아키텍처 및 교육 파이프라인에 여러 개선 사항을 소개하며, 특히 이질적 다국어 데이터에 적합한 기존의 단일 벡터 임베딩 모델 패러다임에서 성공적인 기법을 활용합니다. 새로운 모델인 Jina-ColBERT-v2는 이전 모델과 비교하여 최대 50%의 저장 요구 사항을 줄이면서 영어 및 다국어 검색 작업 범위에서 강력한 성능을 보여줍니다.
English
Multi-vector dense models, such as ColBERT, have proven highly effective in
information retrieval. ColBERT's late interaction scoring approximates the
joint query-document attention seen in cross-encoders while maintaining
inference efficiency closer to traditional dense retrieval models, thanks to
its bi-encoder architecture and recent optimizations in indexing and search. In
this paper, we introduce several improvements to the ColBERT model architecture
and training pipeline, leveraging techniques successful in the more established
single-vector embedding model paradigm, particularly those suited for
heterogeneous multilingual data. Our new model, Jina-ColBERT-v2, demonstrates
strong performance across a range of English and multilingual retrieval tasks,
while also cutting storage requirements by up to 50% compared to previous
models.Summary
AI-Generated Summary