MEGAVERSE: Het benchmarken van grote taalmodellen over talen, modaliteiten, modellen en taken heen

Samenvatting

Recentelijk is er een snelle vooruitgang geboekt in het onderzoek naar Large Language Models (LLM's), wat heeft geleid tot aanzienlijke vooruitgang in verschillende Natural Language Processing (NLP)-taken. Hierdoor is er een toename in onderzoek naar de evaluatie van LLM's om de mogelijkheden en beperkingen van deze modellen te begrijpen. Echter, veel van dit onderzoek is beperkt gebleven tot de Engelse taal, waardoor de ontwikkeling en evaluatie van LLM's voor niet-Engelse talen relatief onontgonnen is. Er zijn verschillende nieuwe LLM's geïntroduceerd, wat de noodzaak voor hun evaluatie op niet-Engelse talen vergroot. Deze studie heeft als doel ons MEGA-benchmarkingsuite uit te breiden door zes nieuwe datasets op te nemen om de MEGAVERSE-benchmark te vormen. De benchmark omvat 22 datasets die 81 talen bestrijken, waaronder laag-resource Afrikaanse talen. We evalueren verschillende state-of-the-art LLM's zoals GPT-3.5-Turbo, GPT4, PaLM2 en Llama2 op de MEGAVERSE-datasets. Daarnaast nemen we twee multimodale datasets op in de benchmark en beoordelen we de prestaties van het LLaVa-v1.5-model. Onze experimenten suggereren dat GPT4 en PaLM2 de Llama-modellen overtreffen op verschillende taken, met name op laag-resource talen, waarbij GPT4 op meer datasets beter presteert dan PaLM2 dan omgekeerd. Echter, kwesties zoals datacontaminatie moeten worden aangepakt om een nauwkeurige beoordeling van de prestaties van LLM's op niet-Engelse talen te verkrijgen.

English

Recently, there has been a rapid advancement in research on Large Language Models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation research to comprehend the models' capabilities and limitations. However, much of this research has been confined to the English language, leaving LLM building and evaluation for non-English languages relatively unexplored. There has been an introduction of several new LLMs, necessitating their evaluation on non-English languages. This study aims to expand our MEGA benchmarking suite by including six new datasets to form the MEGAVERSE benchmark. The benchmark comprises 22 datasets covering 81 languages, including low-resource African languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4, PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two multimodal datasets in the benchmark and assess the performance of the LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the Llama models on various tasks, notably on low-resource languages, with GPT4 outperforming PaLM2 on more datasets than vice versa. However, issues such as data contamination must be addressed to obtain an accurate assessment of LLM performance on non-English languages.

MEGAVERSE: Het benchmarken van grote taalmodellen over talen, modaliteiten, modellen en taken heen

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

Samenvatting

Support