ChatPaper.aiChatPaper

MEGAVERSE: Evaluación de Modelos de Lenguaje de Gran Escala a través de Idiomas, Modalidades, Modelos y Tareas

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

November 13, 2023
Autores: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI

Resumen

Recientemente, ha habido un avance rápido en la investigación sobre Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), lo que ha resultado en un progreso significativo en varias tareas de Procesamiento del Lenguaje Natural (NLP). Como consecuencia, ha surgido un aumento en la investigación sobre la evaluación de LLMs para comprender las capacidades y limitaciones de estos modelos. Sin embargo, gran parte de esta investigación se ha limitado al idioma inglés, dejando relativamente inexplorada la construcción y evaluación de LLMs para lenguas no inglesas. Se han introducido varios LLMs nuevos, lo que ha hecho necesario su evaluación en lenguas no inglesas. Este estudio tiene como objetivo ampliar nuestra suite de evaluación MEGA al incluir seis nuevos conjuntos de datos para formar el benchmark MEGAVERSE. Este benchmark comprende 22 conjuntos de datos que cubren 81 idiomas, incluyendo lenguas africanas de bajos recursos. Evaluamos varios LLMs de vanguardia como GPT-3.5-Turbo, GPT4, PaLM2 y Llama2 en los conjuntos de datos de MEGAVERSE. Además, incluimos dos conjuntos de datos multimodales en el benchmark y evaluamos el rendimiento del modelo LLaVa-v1.5. Nuestros experimentos sugieren que GPT4 y PaLM2 superan a los modelos Llama en diversas tareas, especialmente en lenguas de bajos recursos, con GPT4 superando a PaLM2 en más conjuntos de datos que viceversa. Sin embargo, es necesario abordar problemas como la contaminación de datos para obtener una evaluación precisa del rendimiento de los LLMs en lenguas no inglesas.
English
Recently, there has been a rapid advancement in research on Large Language Models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation research to comprehend the models' capabilities and limitations. However, much of this research has been confined to the English language, leaving LLM building and evaluation for non-English languages relatively unexplored. There has been an introduction of several new LLMs, necessitating their evaluation on non-English languages. This study aims to expand our MEGA benchmarking suite by including six new datasets to form the MEGAVERSE benchmark. The benchmark comprises 22 datasets covering 81 languages, including low-resource African languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4, PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two multimodal datasets in the benchmark and assess the performance of the LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the Llama models on various tasks, notably on low-resource languages, with GPT4 outperforming PaLM2 on more datasets than vice versa. However, issues such as data contamination must be addressed to obtain an accurate assessment of LLM performance on non-English languages.
PDF150December 15, 2024