ChatPaper.aiChatPaper

MEGAVERSE : Évaluation des modèles de langage à grande échelle à travers les langues, les modalités, les modèles et les tâches

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

November 13, 2023
Auteurs: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI

Résumé

Récemment, il y a eu une avancée rapide dans la recherche sur les modèles de langage de grande taille (LLMs), entraînant des progrès significatifs dans plusieurs tâches de traitement du langage naturel (NLP). Par conséquent, il y a eu une augmentation des recherches sur l'évaluation des LLMs afin de comprendre leurs capacités et leurs limites. Cependant, une grande partie de ces recherches s'est limitée à la langue anglaise, laissant la construction et l'évaluation des LLMs pour les langues non anglaises relativement inexplorées. Plusieurs nouveaux LLMs ont été introduits, nécessitant leur évaluation sur des langues non anglaises. Cette étude vise à étendre notre suite de référence MEGA en incluant six nouveaux ensembles de données pour former le benchmark MEGAVERSE. Le benchmark comprend 22 ensembles de données couvrant 81 langues, y compris des langues africaines à faible ressource. Nous évaluons plusieurs LLMs de pointe comme GPT-3.5-Turbo, GPT4, PaLM2 et Llama2 sur les ensembles de données MEGAVERSE. De plus, nous incluons deux ensembles de données multimodales dans le benchmark et évaluons les performances du modèle LLaVa-v1.5. Nos expériences suggèrent que GPT4 et PaLM2 surpassent les modèles Llama sur diverses tâches, notamment sur les langues à faible ressource, avec GPT4 surpassant PaLM2 sur plus d'ensembles de données que l'inverse. Cependant, des problèmes tels que la contamination des données doivent être résolus pour obtenir une évaluation précise des performances des LLMs sur les langues non anglaises.
English
Recently, there has been a rapid advancement in research on Large Language Models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation research to comprehend the models' capabilities and limitations. However, much of this research has been confined to the English language, leaving LLM building and evaluation for non-English languages relatively unexplored. There has been an introduction of several new LLMs, necessitating their evaluation on non-English languages. This study aims to expand our MEGA benchmarking suite by including six new datasets to form the MEGAVERSE benchmark. The benchmark comprises 22 datasets covering 81 languages, including low-resource African languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4, PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two multimodal datasets in the benchmark and assess the performance of the LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the Llama models on various tasks, notably on low-resource languages, with GPT4 outperforming PaLM2 on more datasets than vice versa. However, issues such as data contamination must be addressed to obtain an accurate assessment of LLM performance on non-English languages.
PDF150December 15, 2024