ChatPaper.aiChatPaper

MEGAVERSE: 언어, 모달리티, 모델 및 작업에 걸친 대규모 언어 모델 벤치마킹

MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

November 13, 2023
저자: Sanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram
cs.AI

초록

최근 대규모 언어 모델(Large Language Models, LLMs) 연구가 급속도로 발전하면서 여러 자연어 처리(Natural Language Processing, NLP) 과제에서 상당한 진전이 이루어졌습니다. 이에 따라 LLM의 능력과 한계를 이해하기 위한 평가 연구도 급증하고 있습니다. 그러나 이러한 연구의 상당 부분이 영어에 국한되어 있어, 비영어권 언어에 대한 LLM 구축 및 평가는 상대적으로 덜 탐구된 상태입니다. 여러 새로운 LLM이 등장하면서 이들을 비영어권 언어에 대해 평가할 필요성이 대두되었습니다. 본 연구는 MEGA 벤치마킹 제품군을 확장하여 6개의 새로운 데이터셋을 포함한 MEGAVERSE 벤치마크를 구성하는 것을 목표로 합니다. 이 벤치마크는 저자원 아프리카 언어를 포함한 81개 언어를 아우르는 22개의 데이터셋으로 구성됩니다. 우리는 GPT-3.5-Turbo, GPT4, PaLM2, Llama2와 같은 최첨단 LLM을 MEGAVERSE 데이터셋에 대해 평가합니다. 또한, 벤치마크에 두 개의 멀티모달 데이터셋을 포함시키고 LLaVa-v1.5 모델의 성능을 평가합니다. 실험 결과, GPT4와 PaLM2가 다양한 과제, 특히 저자원 언어에서 Llama 모델들을 능가하는 것으로 나타났으며, GPT4가 PaLM2보다 더 많은 데이터셋에서 우수한 성능을 보였습니다. 그러나 비영어권 언어에 대한 LLM 성능을 정확히 평가하기 위해서는 데이터 오염과 같은 문제를 해결해야 합니다.
English
Recently, there has been a rapid advancement in research on Large Language Models (LLMs), resulting in significant progress in several Natural Language Processing (NLP) tasks. Consequently, there has been a surge in LLM evaluation research to comprehend the models' capabilities and limitations. However, much of this research has been confined to the English language, leaving LLM building and evaluation for non-English languages relatively unexplored. There has been an introduction of several new LLMs, necessitating their evaluation on non-English languages. This study aims to expand our MEGA benchmarking suite by including six new datasets to form the MEGAVERSE benchmark. The benchmark comprises 22 datasets covering 81 languages, including low-resource African languages. We evaluate several state-of-the-art LLMs like GPT-3.5-Turbo, GPT4, PaLM2, and Llama2 on the MEGAVERSE datasets. Additionally, we include two multimodal datasets in the benchmark and assess the performance of the LLaVa-v1.5 model. Our experiments suggest that GPT4 and PaLM2 outperform the Llama models on various tasks, notably on low-resource languages, with GPT4 outperforming PaLM2 on more datasets than vice versa. However, issues such as data contamination must be addressed to obtain an accurate assessment of LLM performance on non-English languages.
PDF150December 15, 2024