ChatPaper.aiChatPaper

러시아어 중심의 임베더들의 탐구: ruMTEB 벤치마크 및 러시아어 임베딩 모델 설계

The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

August 22, 2024
저자: Artem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov
cs.AI

초록

임베딩 모델은 자연어 처리(NLP)에서 중요한 역할을 하며, 정보 검색 및 의미론적 텍스트 유사성 평가와 같은 다양한 작업에 사용되는 텍스트 임베딩을 생성합니다. 본 논문은 러시아어에 관련된 임베딩 모델 연구에 초점을 맞추고 있습니다. 새로운 러시아어 중심의 임베딩 모델인 ru-en-RoSBERTa와 MTEB(Massive Text Embedding Benchmark)를 확장한 러시아어 버전인 ruMTEB 벤치마크를 소개합니다. 저희의 벤치마크에는 의미론적 텍스트 유사성, 텍스트 분류, 재랭킹, 검색 등 7가지 범주의 작업이 포함되어 있습니다. 본 연구는 제안된 벤치마크에서 러시아어 및 다국어 모델의 대표적인 세트를 평가합니다. 연구 결과는 새로운 모델이 러시아어에서 최첨단 모델과 유사한 결과를 달성한다는 것을 보여줍니다. 우리는 ru-en-RoSBERTa 모델을 공개하며, ruMTEB 프레임워크는 오픈 소스 코드, 원본 프레임워크 통합 및 공개 리더보드를 제공합니다.
English
Embedding models play a crucial role in Natural Language Processing (NLP) by creating text embeddings used in various tasks such as information retrieval and assessing semantic text similarity. This paper focuses on research related to embedding models in the Russian language. It introduces a new Russian-focused embedding model called ru-en-RoSBERTa and the ruMTEB benchmark, the Russian version extending the Massive Text Embedding Benchmark (MTEB). Our benchmark includes seven categories of tasks, such as semantic textual similarity, text classification, reranking, and retrieval. The research also assesses a representative set of Russian and multilingual models on the proposed benchmark. The findings indicate that the new model achieves results that are on par with state-of-the-art models in Russian. We release the model ru-en-RoSBERTa, and the ruMTEB framework comes with open-source code, integration into the original framework and a public leaderboard.

Summary

AI-Generated Summary

PDF251November 16, 2024