MEGAVERSE: Benchmarking von Large Language Models über Sprachen, Modalitäten, Modelle und Aufgaben hinweg
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks
November 13, 2023
Autoren: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI
Zusammenfassung
In jüngster Zeit gab es rasante Fortschritte in der Forschung zu Large Language Models (LLMs), die zu bedeutenden Verbesserungen in mehreren Aufgaben der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) geführt haben. Infolgedessen hat die Forschung zur Bewertung von LLMs stark zugenommen, um die Fähigkeiten und Grenzen dieser Modelle besser zu verstehen. Ein Großteil dieser Forschung beschränkte sich jedoch auf die englische Sprache, wodurch die Entwicklung und Bewertung von LLMs für nicht-englische Sprachen relativ unerforscht blieb. Mit der Einführung mehrerer neuer LLMs besteht nun die Notwendigkeit, diese auch für nicht-englische Sprachen zu evaluieren. Diese Studie zielt darauf ab, unsere MEGA-Benchmarking-Suite durch die Aufnahme von sechs neuen Datensätzen zum MEGAVERSE-Benchmark zu erweitern. Der Benchmark umfasst 22 Datensätze, die 81 Sprachen abdecken, darunter auch ressourcenarme afrikanische Sprachen. Wir evaluieren mehrere state-of-the-art LLMs wie GPT-3.5-Turbo, GPT4, PaLM2 und Llama2 anhand der MEGAVERSE-Datensätze. Zusätzlich integrieren wir zwei multimodale Datensätze in den Benchmark und bewerten die Leistung des LLaVa-v1.5-Modells. Unsere Experimente deuten darauf hin, dass GPT4 und PaLM2 die Llama-Modelle in verschiedenen Aufgaben übertreffen, insbesondere bei ressourcenarmen Sprachen, wobei GPT4 auf mehr Datensätzen besser abschneidet als PaLM2. Dennoch müssen Probleme wie Datenkontamination angegangen werden, um eine genaue Bewertung der Leistung von LLMs für nicht-englische Sprachen zu gewährleisten.
English
Recently, there has been a rapid advancement in research on Large Language
Models (LLMs), resulting in significant progress in several Natural Language
Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation
research to comprehend the models' capabilities and limitations. However, much
of this research has been confined to the English language, leaving LLM
building and evaluation for non-English languages relatively unexplored. There
has been an introduction of several new LLMs, necessitating their evaluation on
non-English languages. This study aims to expand our MEGA benchmarking suite by
including six new datasets to form the MEGAVERSE benchmark. The benchmark
comprises 22 datasets covering 81 languages, including low-resource African
languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4,
PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two
multimodal datasets in the benchmark and assess the performance of the
LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the
Llama models on various tasks, notably on low-resource languages, with GPT4
outperforming PaLM2 on more datasets than vice versa. However, issues such as
data contamination must be addressed to obtain an accurate assessment of LLM
performance on non-English languages.