MMTEB: 대규모 다국어 텍스트 임베딩 벤치마크
MMTEB: Massive Multilingual Text Embedding Benchmark
February 19, 2025
저자: Kenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemiński, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystrøm, Roman Solomatin, Ömer Çağatan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafał Poświata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Björn Plüster, Jan Philipp Harries, Loïc Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek Šuppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Günther, Mengzhou Xia, Weijia Shi, Xing Han Lù, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff
cs.AI
초록
텍스트 임베딩은 일반적으로 언어, 도메인, 작업 다양성에 의해 제한된 소수의 작업들로 평가됩니다. 이러한 한계를 해결하고 더 포괄적인 평가를 제공하기 위해, 우리는 Massive Multilingual Text Embedding Benchmark(MMTEB)를 소개합니다. MMTEB는 MTEB의 대규모 커뮤니티 주도 확장으로, 250개 이상의 언어에 걸쳐 500개 이상의 품질 관리된 평가 작업을 포함합니다. MMTEB는 명령어 수행, 장문서 검색, 코드 검색과 같은 다양한 도전적이고 새로운 작업들을 포함하며, 이는 현재까지 임베딩 모델을 위한 가장 큰 다국어 평가 작업 컬렉션을 대표합니다. 이 컬렉션을 사용하여, 우리는 여러 고도로 다국어 벤치마크를 개발하고 이를 통해 대표적인 모델 집합을 평가합니다. 우리는 수십억 개의 파라미터를 가진 대형 언어 모델(LLM)이 특정 언어 하위 집합과 작업 범주에서 최첨단 성능을 달성할 수 있지만, 공개적으로 사용 가능한 최고 성능 모델은 단 5억 6천만 개의 파라미터를 가진 multilingual-e5-large-instruct임을 발견했습니다. 접근성을 용이하게 하고 계산 비용을 줄이기 위해, 우리는 작업 간 상관 관계를 기반으로 한 새로운 다운샘플링 방법을 도입하여 상대적 모델 순위를 유지하면서도 다양한 선택을 보장합니다. 또한, 우리는 하드 네거티브 샘플링을 통해 검색과 같은 작업을 최적화하여 더 작지만 효과적인 분할을 생성합니다. 이러한 최적화를 통해 우리는 계산 요구를 극적으로 줄이는 벤치마크를 도입할 수 있습니다. 예를 들어, 우리가 새로 도입한 제로샷 영어 벤치마크는 전체 규모 버전과 유사한 순위를 유지하지만 계산 비용은 훨씬 적게 듭니다.
English
Text embeddings are typically evaluated on a limited set of tasks, which are
constrained by language, domain, and task diversity. To address these
limitations and provide a more comprehensive evaluation, we introduce the
Massive Multilingual Text Embedding Benchmark (MMTEB) - a large-scale,
community-driven expansion of MTEB, covering over 500 quality-controlled
evaluation tasks across 250+ languages. MMTEB includes a diverse set of
challenging, novel tasks such as instruction following, long-document
retrieval, and code retrieval, representing the largest multilingual collection
of evaluation tasks for embedding models to date. Using this collection, we
develop several highly multilingual benchmarks, which we use to evaluate a
representative set of models. We find that while large language models (LLMs)
with billions of parameters can achieve state-of-the-art performance on certain
language subsets and task categories, the best-performing publicly available
model is multilingual-e5-large-instruct with only 560 million parameters. To
facilitate accessibility and reduce computational cost, we introduce a novel
downsampling method based on inter-task correlation, ensuring a diverse
selection while preserving relative model rankings. Furthermore, we optimize
tasks such as retrieval by sampling hard negatives, creating smaller but
effective splits. These optimizations allow us to introduce benchmarks that
drastically reduce computational demands. For instance, our newly introduced
zero-shot English benchmark maintains a ranking order similar to the full-scale
version but at a fraction of the computational cost.Summary
AI-Generated Summary