ChatPaper.aiChatPaper

TurkColBERT: Un Punto de Referencia para Modelos de Recuperación de Información en Turco Basados en Representaciones Densas e Interacción Tardía

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

November 20, 2025
Autores: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker
cs.AI

Resumen

Los sistemas neuronales de recuperación de información sobresalen en idiomas con muchos recursos, pero siguen sin explorarse lo suficiente para lenguas morfológicamente ricas y con menos recursos, como el turco. Los bi-codificadores densos actualmente dominan la RI en turco, sin embargo, los modelos de interacción tardía —que conservan representaciones a nivel de token para una coincidencia más fina— no han sido evaluados sistemáticamente. Presentamos TurkColBERT, el primer benchmark integral que compara codificadores densos y modelos de interacción tardía para la recuperación en turco. Nuestra pipeline de adaptación en dos etapas afina codificadores en inglés y multilingües en tareas turcas de NLI/STS, y luego los convierte en recuperadores estilo ColBERT usando PyLate entrenado en MS MARCO-TR. Evaluamos 10 modelos en cinco conjuntos de datos turcos BEIR que abarcan dominios científicos, financieros y argumentativos. Los resultados muestran una fuerte eficiencia paramétrica: colbert-hash-nano-tr, con 1.0M de parámetros, es 600 veces más pequeño que el codificador denso turkish-e5-large de 600M, preservando más del 71% de su mAP promedio. Los modelos de interacción tardía que son 3-5 veces más pequeños que los codificadores densos los superan significativamente; ColmmBERT-base-TR produce hasta un +13.8% de mAP en tareas específicas de dominio. Para la preparación para producción, comparamos algoritmos de indexación: MUVERA+Rerank es 3.33 veces más rápido que PLAID y ofrece una ganancia relativa de mAP de +1.7%. Esto permite una recuperación de baja latencia, con ColmmBERT-base-TR logrando tiempos de consulta de 0.54 ms bajo MUVERA. Publicamos todos los checkpoints, configuraciones y scripts de evaluación. Las limitaciones incluyen la dependencia de conjuntos de datos de tamaño moderado (≤50K documentos) y benchmarks traducidos, que pueden no reflejar completamente las condiciones reales de recuperación en turco; siguen siendo necesarias evaluaciones a mayor escala con MUVERA.
English
Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.
PDF152December 1, 2025