Die Untersuchung der auf Russisch ausgerichteten Embedder: ruMTEB-Benchmark und das Design des russischen Einbettungsmodells.

Zusammenfassung

Einbettungsmodelle spielen eine entscheidende Rolle in der natürlichen Sprachverarbeitung (NLP), indem sie Texteinbettungen erstellen, die bei verschiedenen Aufgaben wie der Informationssuche und der Bewertung semantischer Textähnlichkeit verwendet werden. Dieser Artikel konzentriert sich auf Forschung im Zusammenhang mit Einbettungsmodellen in der russischen Sprache. Er stellt ein neues auf Russisch ausgerichtetes Einbettungsmodell namens ru-en-RoSBERTa und den ruMTEB-Benchmark vor, die russische Version des Massive Text Embedding Benchmark (MTEB). Unser Benchmark umfasst sieben Kategorien von Aufgaben wie semantische Textähnlichkeit, Textklassifizierung, Umsortierung und Suche. Die Forschung bewertet auch eine repräsentative Auswahl von russischen und mehrsprachigen Modellen anhand des vorgeschlagenen Benchmarks. Die Ergebnisse zeigen, dass das neue Modell Ergebnisse erzielt, die mit Spitzenmodellen in Russisch vergleichbar sind. Wir veröffentlichen das Modell ru-en-RoSBERTa, und das ruMTEB-Framework wird mit Open-Source-Code, Integration in das ursprüngliche Framework und einer öffentlichen Bestenliste bereitgestellt.

English

Embedding models play a crucial role in Natural Language Processing (NLP) by creating text embeddings used in various tasks such as information retrieval and assessing semantic text similarity. This paper focuses on research related to embedding models in the Russian language. It introduces a new Russian-focused embedding model called ru-en-RoSBERTa and the ruMTEB benchmark, the Russian version extending the Massive Text Embedding Benchmark (MTEB). Our benchmark includes seven categories of tasks, such as semantic textual similarity, text classification, reranking, and retrieval. The research also assesses a representative set of Russian and multilingual models on the proposed benchmark. The findings indicate that the new model achieves results that are on par with state-of-the-art models in Russian. We release the model ru-en-RoSBERTa, and the ruMTEB framework comes with open-source code, integration into the original framework and a public leaderboard.