ChatPaper.aiChatPaper

TurkColBERT: 터키어 정보 검색을 위한 밀집 및 후기 상호작용 모델 벤치마크

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

November 20, 2025
저자: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker
cs.AI

초록

신경 정보 검색 시스템은 고자원 언어에서는 뛰어난 성능을 보이지만, 터키어와 같이 형태론적으로 풍부한 저자원 언어에 대해서는 충분히 연구되지 않았다. 현재 터키어 IR 분야에서는 밀집 바이인코더가 주로 사용되고 있으나, 세분화된 매칭을 위해 토큰 수준 표현을 유지하는 후기 상호작용 모델은 체계적으로 평가된 바 없다. 본 연구에서는 터키어 검색을 위한 밀집 인코더와 후기 상호작용 모델의 첫 번째 포괄적 벤치마크인 TurkColBERT를 소개한다. 2단계 적응 파이프라인은 영어 및 다국어 인코더를 터키어 NLI/STS 작업에 미세 조정한 후, MS MARCO-TR로 학습된 PyLate를 사용하여 이를 ColBERT 스타일 검색기로 변환한다. 과학, 금융, 논증 영역을 아우르는 5개의 터키어 BEIR 데이터셋에서 10개 모델을 평가하였다. 결과는 강력한 매개변수 효율성을 보여준다: 100만 매개변수의 colbert-hash-nano-tr은 6억 매개변수의 turkish-e5-large 밀집 인코더보다 600배 작으면서도 평균 mAP의 71% 이상을 유지한다. 밀집 인코더보다 3~5배 작은 후기 상호작용 모델들은 이를 유의미하게 능가하며, ColmmBERT-base-TR은 도메인 특화 작업에서 최대 +13.8% mAP 향상을 보인다. 프로덕션 적용을 위해 인덱싱 알고리즘을 비교한 결과, MUVERA+재순위화는 PLAID보다 3.33배 빠르고 +1.7%의 상대적 mAP 향상을 제공한다. 이를 통해 ColmmBERT-base-TR이 MUVERA에서 0.54ms의 질의 시간으로 저지연 검색이 가능하다. 모든 체크포인트, 설정 및 평가 스크립트를 공개한다. 한계점으로는 중간 규모 데이터셋(≤5만 문서)에 대한 의존성과 실제 터키어 검색 환경을 완전히 반영하지 못할 수 있는 번역 벤치마크가 있으며, 대규모 MUVERA 평가는 추가로 필요하다.
English
Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.
PDF152December 1, 2025