mGTE: Modelli generalizzati per la rappresentazione e il riordinamento di testi con contesto esteso nel recupero multilingue di informazioni
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval
July 29, 2024
Autori: Xin Zhang, Yanzhao Zhang, Dingkun Long, Wen Xie, Ziqi Dai, Jialong Tang, Huan Lin, Baosong Yang, Pengjun Xie, Fei Huang, Meishan Zhang, Wenjie Li, Min Zhang
cs.AI
Abstract
Presentiamo sforzi sistematici nella costruzione di un modello di rappresentazione testuale multilingue a contesto lungo (TRM) e di un sistema di riordinamento (reranker) da zero per il recupero di testi. Iniziamo introducendo un codificatore di testo (dimensione base) potenziato con RoPE e unpadding, pre-addestrato in un contesto nativo di 8192 token (più lungo rispetto ai 512 dei precedenti codificatori multilingue). Successivamente, costruiamo un TRM ibrido e un reranker cross-encoder attraverso l'apprendimento contrastivo. Le valutazioni dimostrano che il nostro codificatore di testo supera il precedente stato dell'arte XLM-R di pari dimensioni. Nel frattempo, il nostro TRM e reranker eguagliano le prestazioni dei modelli BGE-M3 di grandi dimensioni e ottengono risultati migliori nei benchmark di recupero a contesto lungo. Ulteriori analisi mostrano che i nostri modelli proposti presentano una maggiore efficienza sia durante l'addestramento che durante l'inferenza. Crediamo che la loro efficienza ed efficacia possano beneficiare varie ricerche e applicazioni industriali.
English
We present systematic efforts in building long-context multilingual text
representation model (TRM) and reranker from scratch for text retrieval. We
first introduce a text encoder (base size) enhanced with RoPE and unpadding,
pre-trained in a native 8192-token context (longer than 512 of previous
multilingual encoders). Then we construct a hybrid TRM and a cross-encoder
reranker by contrastive learning. Evaluations show that our text encoder
outperforms the same-sized previous state-of-the-art XLM-R. Meanwhile, our TRM
and reranker match the performance of large-sized state-of-the-art BGE-M3
models and achieve better results on long-context retrieval benchmarks. Further
analysis demonstrate that our proposed models exhibit higher efficiency during
both training and inference. We believe their efficiency and effectiveness
could benefit various researches and industrial applications.