MEGAVERSE: Het benchmarken van grote taalmodellen over talen, modaliteiten, modellen en taken heen
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks
November 13, 2023
Auteurs: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI
Samenvatting
Recentelijk is er een snelle vooruitgang geboekt in het onderzoek naar Large Language Models (LLM's), wat heeft geleid tot aanzienlijke vooruitgang in verschillende Natural Language Processing (NLP)-taken. Hierdoor is er een toename in onderzoek naar de evaluatie van LLM's om de mogelijkheden en beperkingen van deze modellen te begrijpen. Echter, veel van dit onderzoek is beperkt gebleven tot de Engelse taal, waardoor de ontwikkeling en evaluatie van LLM's voor niet-Engelse talen relatief onontgonnen is. Er zijn verschillende nieuwe LLM's geïntroduceerd, wat de noodzaak voor hun evaluatie op niet-Engelse talen vergroot. Deze studie heeft als doel ons MEGA-benchmarkingsuite uit te breiden door zes nieuwe datasets op te nemen om de MEGAVERSE-benchmark te vormen. De benchmark omvat 22 datasets die 81 talen bestrijken, waaronder laag-resource Afrikaanse talen. We evalueren verschillende state-of-the-art LLM's zoals GPT-3.5-Turbo, GPT4, PaLM2 en Llama2 op de MEGAVERSE-datasets. Daarnaast nemen we twee multimodale datasets op in de benchmark en beoordelen we de prestaties van het LLaVa-v1.5-model. Onze experimenten suggereren dat GPT4 en PaLM2 de Llama-modellen overtreffen op verschillende taken, met name op laag-resource talen, waarbij GPT4 op meer datasets beter presteert dan PaLM2 dan omgekeerd. Echter, kwesties zoals datacontaminatie moeten worden aangepakt om een nauwkeurige beoordeling van de prestaties van LLM's op niet-Engelse talen te verkrijgen.
English
Recently, there has been a rapid advancement in research on Large Language
Models (LLMs), resulting in significant progress in several Natural Language
Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation
research to comprehend the models' capabilities and limitations. However, much
of this research has been confined to the English language, leaving LLM
building and evaluation for non-English languages relatively unexplored. There
has been an introduction of several new LLMs, necessitating their evaluation on
non-English languages. This study aims to expand our MEGA benchmarking suite by
including six new datasets to form the MEGAVERSE benchmark. The benchmark
comprises 22 datasets covering 81 languages, including low-resource African
languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4,
PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two
multimodal datasets in the benchmark and assess the performance of the
LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the
Llama models on various tasks, notably on low-resource languages, with GPT4
outperforming PaLM2 on more datasets than vice versa. However, issues such as
data contamination must be addressed to obtain an accurate assessment of LLM
performance on non-English languages.