mGTE:多言語テキスト検索のための汎用長文脈テキスト表現と再ランキングモデル
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval
July 29, 2024
著者: Xin Zhang, Yanzhao Zhang, Dingkun Long, Wen Xie, Ziqi Dai, Jialong Tang, Huan Lin, Baosong Yang, Pengjun Xie, Fei Huang, Meishan Zhang, Wenjie Li, Min Zhang
cs.AI
要旨
本論文では、テキスト検索のための長文脈多言語テキスト表現モデル(TRM)とリランカーのゼロからの構築に向けた体系的な取り組みを紹介します。まず、RoPEとアンパディングを強化したテキストエンコーダ(ベースサイズ)を導入し、8192トークンのネイティブな文脈長(従来の多言語エンコーダの512トークンよりも長い)で事前学習を行いました。次に、コントラスティブ学習を用いてハイブリッドTRMとクロスエンコーダリランカーを構築しました。評価の結果、我々のテキストエンコーダは同サイズの従来の最先端モデルXLM-Rを上回りました。同時に、我々のTRMとリランカーは大規模な最先端モデルBGE-M3と同等の性能を達成し、長文脈検索ベンチマークではより優れた結果を示しました。さらに、提案モデルが学習と推論の両方において高い効率性を発揮することが分析により明らかになりました。我々は、これらの効率性と有効性が様々な研究や産業応用に貢献できると考えています。
English
We present systematic efforts in building long-context multilingual text
representation model (TRM) and reranker from scratch for text retrieval. We
first introduce a text encoder (base size) enhanced with RoPE and unpadding,
pre-trained in a native 8192-token context (longer than 512 of previous
multilingual encoders). Then we construct a hybrid TRM and a cross-encoder
reranker by contrastive learning. Evaluations show that our text encoder
outperforms the same-sized previous state-of-the-art XLM-R. Meanwhile, our TRM
and reranker match the performance of large-sized state-of-the-art BGE-M3
models and achieve better results on long-context retrieval benchmarks. Further
analysis demonstrate that our proposed models exhibit higher efficiency during
both training and inference. We believe their efficiency and effectiveness
could benefit various researches and industrial applications.Summary
AI-Generated Summary