MEGAVERSE: Оценка крупных языковых моделей на различных языках, модальностях, моделях и задачах
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks
November 13, 2023
Авторы: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI
Аннотация
В последнее время наблюдается стремительное развитие исследований в области больших языковых моделей (LLM), что привело к значительному прогрессу в решении ряда задач обработки естественного языка (NLP). В связи с этим резко возрос интерес к исследованиям по оценке LLM, направленным на понимание их возможностей и ограничений. Однако большая часть этих исследований ограничивается английским языком, в то время как разработка и оценка LLM для неанглоязычных языков остаются недостаточно изученными. С появлением нескольких новых LLM возникла необходимость их оценки на неанглийских языках. Данное исследование направлено на расширение нашего набора тестов MEGA путем включения шести новых наборов данных для формирования бенчмарка MEGAVERSE. Этот бенчмарк включает 22 набора данных, охватывающих 81 язык, включая малоресурсные африканские языки. Мы оцениваем несколько современных LLM, таких как GPT-3.5-Turbo, GPT4, PaLM2 и Llama2, на наборах данных MEGAVERSE. Кроме того, мы включаем в бенчмарк два мультимодальных набора данных и оцениваем производительность модели LLaVa-v1.5. Наши эксперименты показывают, что GPT4 и PaLM2 превосходят модели Llama в различных задачах, особенно на малоресурсных языках, причем GPT4 демонстрирует лучшие результаты на большем количестве наборов данных по сравнению с PaLM2. Однако для получения точной оценки производительности LLM на неанглийских языках необходимо учитывать такие проблемы, как загрязнение данных.
English
Recently, there has been a rapid advancement in research on Large Language
Models (LLMs), resulting in significant progress in several Natural Language
Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation
research to comprehend the models' capabilities and limitations. However, much
of this research has been confined to the English language, leaving LLM
building and evaluation for non-English languages relatively unexplored. There
has been an introduction of several new LLMs, necessitating their evaluation on
non-English languages. This study aims to expand our MEGA benchmarking suite by
including six new datasets to form the MEGAVERSE benchmark. The benchmark
comprises 22 datasets covering 81 languages, including low-resource African
languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4,
PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two
multimodal datasets in the benchmark and assess the performance of the
LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the
Llama models on various tasks, notably on low-resource languages, with GPT4
outperforming PaLM2 on more datasets than vice versa. However, issues such as
data contamination must be addressed to obtain an accurate assessment of LLM
performance on non-English languages.