MEGAVERSE : Évaluation des modèles de langage à grande échelle à travers les langues, les modalités, les modèles et les tâches
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks
November 13, 2023
Auteurs: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI
Résumé
Récemment, il y a eu une avancée rapide dans la recherche sur les modèles de langage de grande taille (LLMs), entraînant des progrès significatifs dans plusieurs tâches de traitement du langage naturel (NLP). Par conséquent, il y a eu une augmentation des recherches sur l'évaluation des LLMs afin de comprendre leurs capacités et leurs limites. Cependant, une grande partie de ces recherches s'est limitée à la langue anglaise, laissant la construction et l'évaluation des LLMs pour les langues non anglaises relativement inexplorées. Plusieurs nouveaux LLMs ont été introduits, nécessitant leur évaluation sur des langues non anglaises. Cette étude vise à étendre notre suite de référence MEGA en incluant six nouveaux ensembles de données pour former le benchmark MEGAVERSE. Le benchmark comprend 22 ensembles de données couvrant 81 langues, y compris des langues africaines à faible ressource. Nous évaluons plusieurs LLMs de pointe comme GPT-3.5-Turbo, GPT4, PaLM2 et Llama2 sur les ensembles de données MEGAVERSE. De plus, nous incluons deux ensembles de données multimodales dans le benchmark et évaluons les performances du modèle LLaVa-v1.5. Nos expériences suggèrent que GPT4 et PaLM2 surpassent les modèles Llama sur diverses tâches, notamment sur les langues à faible ressource, avec GPT4 surpassant PaLM2 sur plus d'ensembles de données que l'inverse. Cependant, des problèmes tels que la contamination des données doivent être résolus pour obtenir une évaluation précise des performances des LLMs sur les langues non anglaises.
English
Recently, there has been a rapid advancement in research on Large Language
Models (LLMs), resulting in significant progress in several Natural Language
Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation
research to comprehend the models' capabilities and limitations. However, much
of this research has been confined to the English language, leaving LLM
building and evaluation for non-English languages relatively unexplored. There
has been an introduction of several new LLMs, necessitating their evaluation on
non-English languages. This study aims to expand our MEGA benchmarking suite by
including six new datasets to form the MEGAVERSE benchmark. The benchmark
comprises 22 datasets covering 81 languages, including low-resource African
languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4,
PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two
multimodal datasets in the benchmark and assess the performance of the
LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the
Llama models on various tasks, notably on low-resource languages, with GPT4
outperforming PaLM2 on more datasets than vice versa. However, issues such as
data contamination must be addressed to obtain an accurate assessment of LLM
performance on non-English languages.