ChatPaper.aiChatPaper

TurkColBERT: Een Benchmark voor Dichte en Late-Interactiemodellen voor Informatiezoeken in het Turks

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

November 20, 2025
Auteurs: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker
cs.AI

Samenvatting

Neuronale informatie-retrievalsystemen presteren uitstekend in talen met veel bronnen, maar zijn nog onderbelicht voor morfologisch rijke, minder rijk bedeelde talen zoals het Turks. Dichte bi-encoders domineren momenteel de Turkse IR, maar laat-interactiemodellen – die token-level representaties behouden voor fijnmazige matching – zijn nog niet systematisch geëvalueerd. Wij introduceren TurkColBERT, de eerste uitgebreide benchmark die dichte encoders en laat-interactiemodellen voor Turkse retrieval vergelijkt. Onze adaptatiepijplijn in twee fasen fine-tunt Engelse en meertalige encoders op Turkse NLI/STS-taken, en zet ze vervolgens om in ColBERT-stijl retrievers met behulp van PyLate getraind op MS MARCO-TR. We evalueren 10 modellen op vijf Turkse BEIR-datasets die wetenschappelijke, financiële en argumentatieve domeinen bestrijken. Resultaten tonen een sterke parameter-efficiëntie: de colbert-hash-nano-tr met 1,0M parameters is 600 keer kleiner dan de dichte encoder turkish-e5-large met 600M parameters, terwijl meer dan 71% van het gemiddelde mAP behouden blijft. Laat-interactiemodellen die 3–5 keer kleiner zijn dan dichte encoders overtreffen deze significant; ColmmBERT-base-TR levert tot +13,8% mAP op domeinspecifieke taken op. Voor productiegereedheid vergelijken we indexeringsalgoritmen: MUVERA+Rerank is 3,33 keer sneller dan PLAID en biedt een relatieve mAP-winst van +1,7%. Dit maakt retrieval met lage latentie mogelijk, waarbij ColmmBERT-base-TR querietijden van 0,54 ms behaalt onder MUVERA. We maken alle checkpoints, configuraties en evaluatiescripts openbaar. Beperkingen zijn onder meer de afhankelijkheid van middelgrote datasets (≤50K documenten) en vertaalde benchmarks, die mogelijk niet volledig de real-world omstandigheden van Turkse retrieval weerspiegelen; grootschaligere MUVERA-evaluaties blijven noodzakelijk.
English
Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.
PDF152December 1, 2025