Die Untersuchung der auf Russisch ausgerichteten Embedder: ruMTEB-Benchmark und das Design des russischen Einbettungsmodells.
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design
August 22, 2024
Autoren: Artem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov
cs.AI
Zusammenfassung
Einbettungsmodelle spielen eine entscheidende Rolle in der natürlichen Sprachverarbeitung (NLP), indem sie Texteinbettungen erstellen, die bei verschiedenen Aufgaben wie der Informationssuche und der Bewertung semantischer Textähnlichkeit verwendet werden. Dieser Artikel konzentriert sich auf Forschung im Zusammenhang mit Einbettungsmodellen in der russischen Sprache. Er stellt ein neues auf Russisch ausgerichtetes Einbettungsmodell namens ru-en-RoSBERTa und den ruMTEB-Benchmark vor, die russische Version des Massive Text Embedding Benchmark (MTEB). Unser Benchmark umfasst sieben Kategorien von Aufgaben wie semantische Textähnlichkeit, Textklassifizierung, Umsortierung und Suche. Die Forschung bewertet auch eine repräsentative Auswahl von russischen und mehrsprachigen Modellen anhand des vorgeschlagenen Benchmarks. Die Ergebnisse zeigen, dass das neue Modell Ergebnisse erzielt, die mit Spitzenmodellen in Russisch vergleichbar sind. Wir veröffentlichen das Modell ru-en-RoSBERTa, und das ruMTEB-Framework wird mit Open-Source-Code, Integration in das ursprüngliche Framework und einer öffentlichen Bestenliste bereitgestellt.
English
Embedding models play a crucial role in Natural Language Processing (NLP) by
creating text embeddings used in various tasks such as information retrieval
and assessing semantic text similarity. This paper focuses on research related
to embedding models in the Russian language. It introduces a new
Russian-focused embedding model called ru-en-RoSBERTa and the ruMTEB benchmark,
the Russian version extending the Massive Text Embedding Benchmark (MTEB). Our
benchmark includes seven categories of tasks, such as semantic textual
similarity, text classification, reranking, and retrieval. The research also
assesses a representative set of Russian and multilingual models on the
proposed benchmark. The findings indicate that the new model achieves results
that are on par with state-of-the-art models in Russian. We release the model
ru-en-RoSBERTa, and the ruMTEB framework comes with open-source code,
integration into the original framework and a public leaderboard.Summary
AI-Generated Summary