MEGAVERSE: Avaliação de Modelos de Linguagem de Grande Escala em Diferentes Idiomas, Modalidades, Modelos e Tarefas
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks
November 13, 2023
Autores: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI
Resumo
Recentemente, houve um avanço rápido nas pesquisas sobre Modelos de Linguagem de Grande Escala (LLMs), resultando em progresso significativo em várias tarefas de Processamento de Linguagem Natural (NLP). Consequentemente, houve um aumento nas pesquisas de avaliação de LLMs para compreender as capacidades e limitações desses modelos. No entanto, grande parte dessa pesquisa tem sido limitada ao idioma inglês, deixando a construção e avaliação de LLMs para idiomas não ingleses relativamente inexploradas. Houve a introdução de vários novos LLMs, tornando necessária sua avaliação em idiomas não ingleses. Este estudo visa expandir nosso conjunto de benchmarks MEGA, incluindo seis novos conjuntos de dados para formar o benchmark MEGAVERSE. O benchmark compreende 22 conjuntos de dados que abrangem 81 idiomas, incluindo línguas africanas de baixo recurso. Avaliamos vários LLMs de última geração, como GPT-3.5-Turbo, GPT4, PaLM2 e Llama2, nos conjuntos de dados do MEGAVERSE. Além disso, incluímos dois conjuntos de dados multimodais no benchmark e avaliamos o desempenho do modelo LLaVa-v1.5. Nossos experimentos sugerem que GPT4 e PaLM2 superam os modelos Llama em várias tarefas, especialmente em línguas de baixo recurso, com GPT4 superando PaLM2 em mais conjuntos de dados do que o contrário. No entanto, questões como a contaminação de dados devem ser abordadas para obter uma avaliação precisa do desempenho dos LLMs em idiomas não ingleses.
English
Recently, there has been a rapid advancement in research on Large Language
Models (LLMs), resulting in significant progress in several Natural Language
Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation
research to comprehend the models' capabilities and limitations. However, much
of this research has been confined to the English language, leaving LLM
building and evaluation for non-English languages relatively unexplored. There
has been an introduction of several new LLMs, necessitating their evaluation on
non-English languages. This study aims to expand our MEGA benchmarking suite by
including six new datasets to form the MEGAVERSE benchmark. The benchmark
comprises 22 datasets covering 81 languages, including low-resource African
languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4,
PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two
multimodal datasets in the benchmark and assess the performance of the
LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the
Llama models on various tasks, notably on low-resource languages, with GPT4
outperforming PaLM2 on more datasets than vice versa. However, issues such as
data contamination must be addressed to obtain an accurate assessment of LLM
performance on non-English languages.