ChatPaper.aiChatPaper

TurkColBERT: トルコ語情報検索における高密度モデルと遅延相互作用モデルのベンチマーク

TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

November 20, 2025
著者: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker
cs.AI

要旨

神経情報検索システムは、高リソース言語では優れた性能を発揮するが、トルコ語のような形態論的に豊かで低リソースの言語については十分に研究が進んでいない。現在、トルコ語IRでは密な双方向エンコーダが主流であるが、細粒度マッチングのためにトークンレベルの表現を保持する後期相互作用モデルは、体系的な評価がなされていない。本研究では、トルコ語検索における密エンコーダと後期相互作用モデルを比較する初の包括的ベンチマークであるTurkColBERTを提案する。2段階の適応パイプラインにより、英語及び多言語エンコーダをトルコ語のNLI/STSタスクでファインチューニングし、その後、MS MARCO-TRで学習されたPyLateを用いてColBERTスタイルの検索器に変換する。科学的、金融的、論証的領域をカバーする5つのトルコ語BEIRデータセットにおいて、10のモデルを評価した。結果は強いパラメータ効率を示している:100万パラメータのcolbert-hash-nano-trは、6億パラメータのturkish-e5-large密エンコーダより600倍小規模ながら、その平均mAPの71%以上を維持した。密エンコーダより3~5倍小規模な後期相互作用モデルは、それらを有意に上回り、ColmmBERT-base-TRはドメイン特化タスクで最大+13.8%のmAP向上をもたらした。本番環境での利用可能性に向けて、インデックス作成アルゴリズムを比較したところ、MUVERA+RerankはPLAIDより3.33倍高速で、+1.7%の相対mAP向上を提供した。これにより低遅延検索が可能となり、ColmmBERT-base-TRはMUVERA下で0.54 msのクエリ時間を達成した。全てのチェックポイント、設定、評価スクリプトを公開する。限界としては、中規模データセット(5万文書以下)への依存や、現実のトルコ語検索環境を完全には反映しない可能性がある翻訳ベンチマークへの依存が挙げられる。大規模なMUVERA評価は依然として必要である。
English
Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600times smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5times smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33times faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets (leq50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.
PDF152December 1, 2025