ChatPaper.aiChatPaper

L'exploration des intégrateurs axés sur le russe : référentiel ruMTEB et conception de modèle d'intégration russe

The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

August 22, 2024
Auteurs: Artem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov
cs.AI

Résumé

Les modèles d'incorporation jouent un rôle crucial en Traitement Automatique du Langage Naturel (TAL) en créant des incorporations de texte utilisées dans diverses tâches telles que la recherche d'informations et l'évaluation de la similarité sémantique des textes. Cet article se concentre sur la recherche liée aux modèles d'incorporation dans la langue russe. Il présente un nouveau modèle d'incorporation axé sur le russe appelé ru-en-RoSBERTa et le banc d'essai ruMTEB, la version russe étendant le Massive Text Embedding Benchmark (MTEB). Notre banc d'essai comprend sept catégories de tâches, telles que la similarité textuelle sémantique, la classification de texte, le réarrangement et la recherche. La recherche évalue également un ensemble représentatif de modèles russes et multilingues sur le banc d'essai proposé. Les résultats indiquent que le nouveau modèle obtient des résultats comparables à ceux des modèles de pointe en russe. Nous publions le modèle ru-en-RoSBERTa, et le cadre ruMTEB est accompagné d'un code source ouvert, de son intégration dans le cadre original et d'un tableau de classement public.
English
Embedding models play a crucial role in Natural Language Processing (NLP) by creating text embeddings used in various tasks such as information retrieval and assessing semantic text similarity. This paper focuses on research related to embedding models in the Russian language. It introduces a new Russian-focused embedding model called ru-en-RoSBERTa and the ruMTEB benchmark, the Russian version extending the Massive Text Embedding Benchmark (MTEB). Our benchmark includes seven categories of tasks, such as semantic textual similarity, text classification, reranking, and retrieval. The research also assesses a representative set of Russian and multilingual models on the proposed benchmark. The findings indicate that the new model achieves results that are on par with state-of-the-art models in Russian. We release the model ru-en-RoSBERTa, and the ruMTEB framework comes with open-source code, integration into the original framework and a public leaderboard.

Summary

AI-Generated Summary

PDF251November 16, 2024