ChatPaper.aiChatPaper

Jina-ColBERT-v2: 일반용 다국어 늦은 상호작용 검색기

Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

August 29, 2024
저자: Rohan Jha, Bo Wang, Michael Günther, Saba Sturua, Mohammad Kalim Akram, Han Xiao
cs.AI

초록

ColBERT와 같은 다중 벡터 밀집 모델은 정보 검색에서 매우 효과적임이 입증되었습니다. ColBERT의 늦은 상호작용 점수는 바이-인코더 아키텍처와 최근 색인 및 검색 최적화 덕분에 교차 인코더에서 볼 수 있는 공동 쿼리-문서 주의를 근접하게 근사하면서 전통적인 밀집 검색 모델에 가까운 추론 효율성을 유지합니다. 본 논문에서는 ColBERT 모델 아키텍처 및 교육 파이프라인에 여러 개선 사항을 소개하며, 특히 이질적 다국어 데이터에 적합한 기존의 단일 벡터 임베딩 모델 패러다임에서 성공적인 기법을 활용합니다. 새로운 모델인 Jina-ColBERT-v2는 이전 모델과 비교하여 최대 50%의 저장 요구 사항을 줄이면서 영어 및 다국어 검색 작업 범위에서 강력한 성능을 보여줍니다.
English
Multi-vector dense models, such as ColBERT, have proven highly effective in information retrieval. ColBERT's late interaction scoring approximates the joint query-document attention seen in cross-encoders while maintaining inference efficiency closer to traditional dense retrieval models, thanks to its bi-encoder architecture and recent optimizations in indexing and search. In this paper, we introduce several improvements to the ColBERT model architecture and training pipeline, leveraging techniques successful in the more established single-vector embedding model paradigm, particularly those suited for heterogeneous multilingual data. Our new model, Jina-ColBERT-v2, demonstrates strong performance across a range of English and multilingual retrieval tasks, while also cutting storage requirements by up to 50% compared to previous models.

Summary

AI-Generated Summary

PDF81November 16, 2024