MEGAVERSE: Valutazione dei Modelli Linguistici di Grandi Dimensioni Attraverso Lingue, Modalità, Modelli e Compiti
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks
November 13, 2023
Autori: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI
Abstract
Recentemente, si è assistito a un rapido progresso nella ricerca sui Modelli Linguistici di Grande Dimensione (LLM), che ha portato a significativi avanzamenti in diversi compiti di Elaborazione del Linguaggio Naturale (NLP). Di conseguenza, c'è stato un aumento della ricerca sulla valutazione degli LLM per comprendere le capacità e i limiti di questi modelli. Tuttavia, gran parte di questa ricerca si è concentrata sulla lingua inglese, lasciando relativamente inesplorata la costruzione e la valutazione degli LLM per lingue non inglesi. Con l'introduzione di diversi nuovi LLM, è diventato necessario valutarli su lingue non inglesi. Questo studio mira ad espandere la nostra suite di benchmark MEGA includendo sei nuovi dataset per formare il benchmark MEGAVERSE. Il benchmark comprende 22 dataset che coprono 81 lingue, incluse lingue africane a bassa risorsa. Valutiamo diversi LLM all'avanguardia come GPT-3.5-Turbo, GPT4, PaLM2 e Llama2 sui dataset MEGAVERSE. Inoltre, includiamo due dataset multimodali nel benchmark e valutiamo le prestazioni del modello LLaVa-v1.5. I nostri esperimenti suggeriscono che GPT4 e PaLM2 superano i modelli Llama in vari compiti, in particolare su lingue a bassa risorsa, con GPT4 che supera PaLM2 su più dataset rispetto al contrario. Tuttavia, problemi come la contaminazione dei dati devono essere affrontati per ottenere una valutazione accurata delle prestazioni degli LLM su lingue non inglesi.
English
Recently, there has been a rapid advancement in research on Large Language
Models (LLMs), resulting in significant progress in several Natural Language
Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation
research to comprehend the models' capabilities and limitations. However, much
of this research has been confined to the English language, leaving LLM
building and evaluation for non-English languages relatively unexplored. There
has been an introduction of several new LLMs, necessitating their evaluation on
non-English languages. This study aims to expand our MEGA benchmarking suite by
including six new datasets to form the MEGAVERSE benchmark. The benchmark
comprises 22 datasets covering 81 languages, including low-resource African
languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4,
PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two
multimodal datasets in the benchmark and assess the performance of the
LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the
Llama models on various tasks, notably on low-resource languages, with GPT4
outperforming PaLM2 on more datasets than vice versa. However, issues such as
data contamination must be addressed to obtain an accurate assessment of LLM
performance on non-English languages.