ChatPaper.aiChatPaper

TurkColBERT : Un benchmark de modèles denses et à interaction tardive pour la recherche d'information en turc

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

November 20, 2025
papers.authors: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker
cs.AI

papers.abstract

Les systèmes de recherche d'information neuronaux excellent dans les langues riches en ressources mais restent peu explorés pour les langues morphologiquement riches et moins dotées comme le turc. Les bi-encodeurs denses dominent actuellement la RI turque, pourtant les modèles à interaction tardive – qui conservent des représentations au niveau des tokens pour un appariement plus fin – n'ont pas été évalués systématiquement. Nous présentons TurkColBERT, la première référence complète comparant les encodeurs denses et les modèles à interaction tardive pour la recherche en turc. Notre pipeline d'adaptation en deux étapes affine des encodeurs anglais et multilingues sur des tâches turques de NLI/STS, puis les convertit en systèmes de recherche de type ColBERT en utilisant PyLate entraîné sur MS MARCO-TR. Nous évaluons 10 modèles sur cinq ensembles de données turcs BEIR couvrant les domaines scientifique, financier et argumentatif. Les résultats montrent une forte efficacité paramétrique : le colbert-hash-nano-tr (1,0 million de paramètres) est 600 fois plus petit que l'encodeur dense turkish-e5-large (600 millions) tout en conservant plus de 71 % de sa mAP moyenne. Les modèles à interaction tardive, 3 à 5 fois plus petits que les encodeurs denses, les surpassent significativement ; ColmmBERT-base-TR atteint jusqu'à +13,8 % de mAP sur des tâches spécifiques à un domaine. Pour la mise en production, nous comparons des algorithmes d'indexation : MUVERA+Rerank est 3,33 fois plus rapide que PLAID et offre un gain relatif de mAP de +1,7 %. Cela permet une recherche à faible latence, ColmmBERT-base-TR atteignant des temps de requête de 0,54 ms avec MUVERA. Nous publions tous les points de contrôle, configurations et scripts d'évaluation. Les limites incluent le recours à des jeux de données de taille modérée (≤50 000 documents) et à des références traduites, qui peuvent ne pas refléter entièrement les conditions réelles de recherche en turc ; des évaluations MUVERA à plus grande échelle restent nécessaires.
English
Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.
PDF152December 1, 2025