MMTEB: Масштабный бенчмарк для мультиязычных текстовых эмбеддингов
MMTEB: Massive Multilingual Text Embedding Benchmark
February 19, 2025
Авторы: Kenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemiński, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystrøm, Roman Solomatin, Ömer Çağatan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafał Poświata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Björn Plüster, Jan Philipp Harries, Loïc Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek Šuppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Günther, Mengzhou Xia, Weijia Shi, Xing Han Lù, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff
cs.AI
Аннотация
Текстовые эмбеддинги обычно оцениваются на ограниченном наборе задач, которые ограничены языком, предметной областью и разнообразием задач. Чтобы устранить эти ограничения и обеспечить более всестороннюю оценку, мы представляем Massive Multilingual Text Embedding Benchmark (MMTEB) — крупномасштабное, разработанное сообществом расширение MTEB, охватывающее более 500 качественно контролируемых оценочных задач на более чем 250 языках. MMTEB включает разнообразный набор сложных, новых задач, таких как выполнение инструкций, поиск в длинных документах и поиск кода, представляя собой крупнейшую на сегодняшний день многоязычную коллекцию оценочных задач для моделей эмбеддингов. Используя эту коллекцию, мы разрабатываем несколько высоко многоязычных бенчмарков, которые применяем для оценки репрезентативного набора моделей. Мы обнаруживаем, что, хотя крупные языковые модели (LLM) с миллиардами параметров могут достигать передовых результатов на определенных подмножествах языков и категориях задач, лучшей из общедоступных моделей является multilingual-e5-large-instruct с всего 560 миллионами параметров. Для повышения доступности и снижения вычислительных затрат мы представляем новый метод даунсэмплинга, основанный на межзадачной корреляции, обеспечивая разнообразный выбор при сохранении относительных рейтингов моделей. Кроме того, мы оптимизируем такие задачи, как поиск, путем выборки сложных негативных примеров, создавая меньшие, но эффективные разделы. Эти оптимизации позволяют нам ввести бенчмарки, которые значительно снижают вычислительные требования. Например, наш новый zero-shot бенчмарк для английского языка сохраняет порядок ранжирования, аналогичный полномасштабной версии, но при значительно меньших вычислительных затратах.
English
Text embeddings are typically evaluated on a limited set of tasks, which are
constrained by language, domain, and task diversity. To address these
limitations and provide a more comprehensive evaluation, we introduce the
Massive Multilingual Text Embedding Benchmark (MMTEB) - a large-scale,
community-driven expansion of MTEB, covering over 500 quality-controlled
evaluation tasks across 250+ languages. MMTEB includes a diverse set of
challenging, novel tasks such as instruction following, long-document
retrieval, and code retrieval, representing the largest multilingual collection
of evaluation tasks for embedding models to date. Using this collection, we
develop several highly multilingual benchmarks, which we use to evaluate a
representative set of models. We find that while large language models (LLMs)
with billions of parameters can achieve state-of-the-art performance on certain
language subsets and task categories, the best-performing publicly available
model is multilingual-e5-large-instruct with only 560 million parameters. To
facilitate accessibility and reduce computational cost, we introduce a novel
downsampling method based on inter-task correlation, ensuring a diverse
selection while preserving relative model rankings. Furthermore, we optimize
tasks such as retrieval by sampling hard negatives, creating smaller but
effective splits. These optimizations allow us to introduce benchmarks that
drastically reduce computational demands. For instance, our newly introduced
zero-shot English benchmark maintains a ranking order similar to the full-scale
version but at a fraction of the computational cost.Summary
AI-Generated Summary