TurkColBERT: Um Benchmark de Modelos Densos e de Interação Tardia para Recuperação de Informação em Turco

Resumo

Os sistemas neurais de recuperação de informação destacam-se em idiomas de alta disponibilidade de recursos, mas permanecem pouco explorados para línguas morfologicamente ricas e de menor recurso, como o turco. Os bi-encoders densos atualmente dominam a RI turca, no entanto, os modelos de interação tardia – que retêm representações a nível de token para correspondência de granularidade fina – não foram avaliados sistematicamente. Apresentamos o TurkColBERT, o primeiro benchmark abrangente que compara codificadores densos e modelos de interação tardia para recuperação em turco. Nosso pipeline de adaptação em dois estágios ajusta finamente codificadores em inglês e multilingues em tarefas turcas de NLI/STS, depois converte-os em recuperadores no estilo ColBERT usando o PyLate treinado no MS MARCO-TR. Avaliamos 10 modelos em cinco conjuntos de dados turcos BEIR, abrangendo domínios científicos, financeiros e argumentativos. Os resultados mostram uma forte eficiência paramétrica: o colbert-hash-nano-tr, com 1.0 milhão de parâmetros, é 600 vezes menor que o codificador denso turkish-e5-large (600M) enquanto preserva mais de 71% da sua mAP média. Modelos de interação tardia que são 3 a 5 vezes menores que os codificadores densos superam-nos significativamente; o ColmmBERT-base-TR produz ganhos de até +13,8% em mAP em tarefas específicas de domínio. Para prontidão de produção, comparamos algoritmos de indexação: MUVERA+Rerank é 3,33 vezes mais rápido que o PLAID e oferece um ganho relativo de +1,7% em mAP. Isso permite recuperação de baixa latência, com o ColmmBERT-base-TR atingindo tempos de consulta de 0,54 ms sob MUVERA. Disponibilizamos todos os *checkpoints*, configurações e scripts de avaliação. As limitações incluem a dependência de conjuntos de dados de tamanho moderado (≤50K documentos) e *benchmarks* traduzidos, que podem não refletir totalmente as condições reais de recuperação em turco; avaliações em larga escala com o MUVERA ainda são necessárias.

English

Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.

TurkColBERT: Um Benchmark de Modelos Densos e de Interação Tardia para Recuperação de Informação em Turco

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

Resumo

Support