ChatPaper.aiChatPaper

TurkColBERT: Бенчмарк плотных моделей и моделей с поздним взаимодействием для информационного поиска на турецком языке

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

November 20, 2025
Авторы: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker
cs.AI

Аннотация

Нейронные системы информационного поиска демонстрируют превосходные результаты для языков с большими ресурсами, однако остаются малоизученными для морфологически богатых языков с ограниченными ресурсами, таких как турецкий. В настоящее время в турецком информационном поиске доминируют плотные би-энкодеры, в то время как модели с поздним взаимодействием — сохраняющие токенные представления для точного сопоставления — не были систематически оценены. Мы представляем TurkColBERT, первый комплексный бенчмарк, сравнивающий плотные энкодеры и модели с поздним взаимодействием для поиска на турецком языке. Наш двухэтапный конвейер адаптации дообучает английские и многоязычные энкодеры на задачах турецкого NLI/STS, а затем преобразует их в ColBERT-стильные модели поиска с использованием PyLate, обученной на MS MARCO-TR. Мы оцениваем 10 моделей на пяти турецких наборах данных BEIR, охватывающих научную, финансовую и аргументативную области. Результаты демонстрируют высокую параметрическую эффективность: модель colbert-hash-nano-tr с 1.0 млн параметров в 600 раз меньше, чем плотный энкодер turkish-e5-large с 600 млн параметров, сохраняя при этом более 71% его средней mAP. Модели с поздним взаимодействием, которые в 3–5 раз меньше плотных энкодеров, значительно превосходят их; ColmmBERT-base-TR показывает прирост до +13.8% mAP в предметно-ориентированных задачах. Для производственной готовости мы сравниваем алгоритмы индексирования: MUVERA+Rerank в 3.33 раза быстрее, чем PLAID, и обеспечивает относительное увеличение mAP на +1.7%. Это позволяет достичь поиска с низкой задержкой: ColmmBERT-base-TR демонстрирует время обработки запроса 0.54 мс при использовании MUVERA. Мы публикуем все контрольные точки, конфигурации и скрипты оценки. Ограничения включают зависимость от наборов данных умеренного размера (≤50K документов) и переведенных бенчмарков, которые могут не полностью отражать реальные условия поиска на турецком языке; необходимы более масштабные оценки MUVERA.
English
Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.
PDF152December 1, 2025