TurkColBERT: Un Benchmark di Modelli Densi e a Interazione Tardiva per il Recupero di Informazioni in Turco
TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval
November 20, 2025
Autori: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker
cs.AI
Abstract
I sistemi di recupero delle informazioni neurali eccellono nelle lingue ad alte risorse, ma rimangono poco esplorati per lingue morfologicamente ricche e a risorse limitate come il turco. I bi-encoder densi attualmente dominano l'IR per il turco, mentre i modelli a interazione tardiva – che conservano rappresentazioni a livello di token per un matching più granulare – non sono stati valutati sistematicamente. Introduciamo TurkColBERT, il primo benchmark completo che confronta encoder densi e modelli a interazione tardiva per il recupero di informazioni in turco. La nostra pipeline di adattamento in due fasi mette a punto encoder inglesi e multilingue su task NLI/STS in turco, per poi convertirli in retriever in stile ColBERT utilizzando PyLate addestrato su MS MARCO-TR. Valutiamo 10 modelli su cinque dataset BEIR turchi che coprono domini scientifici, finanziari e argomentativi. I risultati mostrano una forte efficienza parametrica: il modello colbert-hash-nano-tr da 1.0M di parametri è 600 volte più piccolo del codificatore denso turkish-e5-large da 600M, pur preservando oltre il 71% della sua mAP media. I modelli a interazione tardiva che sono 3-5 volte più piccoli degli encoder densi li superano significativamente; ColmmBERT-base-TR fornisce un miglioramento della mAP fino al +13,8% su task specifici di dominio. Per la prontezza alla produzione, confrontiamo algoritmi di indicizzazione: MUVERA+Rerank è 3,33 volte più veloce di PLAID e offre un guadagno relativo di mAP dell'+1,7%. Ciò consente un recupero a bassa latenza, con ColmmBERT-base-TR che raggiunge tempi di query di 0,54 ms sotto MUVERA. Rilasciamo tutti i checkpoint, le configurazioni e gli script di valutazione. Le limitazioni includono la dipendenza da dataset di dimensioni moderate (≤50K documenti) e benchmark tradotti, che potrebbero non riflettere pienamente le condizioni reali del recupero in turco; rimangono necessarie valutazioni MUVERA su larga scala.
English
Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.