Zijn evaluatoren op basis van grote taalmodellen de oplossing voor het opschalen van meertalige evaluatie?
Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?
September 14, 2023
Auteurs: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben indrukwekkende prestaties getoond op het gebied van Natural Language Processing (NLP)-taken, zoals Vraagbeantwoording, Samenvatting en Classificatie. Het gebruik van LLMs als evaluatoren, die de output van andere modellen (meestal LLMs) kunnen rangschikken of scoren, is steeds populairder geworden vanwege de beperkingen van huidige evaluatietechnieken, waaronder het gebrek aan geschikte benchmarks, metrieken, kosten en toegang tot menselijke annotators. Hoewel LLMs ongeveer 100 talen aankunnen, ontbreekt het bij de meeste talen buiten de top 20 aan systematische evaluatie over verschillende taken, metrieken en benchmarks. Dit creëert een dringende behoefte om meertalige evaluatie op te schalen om een nauwkeurig begrip van de prestaties van LLMs in diverse talen te waarborgen. LLM-gebaseerde evaluatoren lijken de perfecte oplossing voor dit probleem, aangezien ze geen menselijke annotators, door mensen gemaakte referenties of benchmarks vereisen en theoretisch gebruikt kunnen worden om elke taal die door het LLM wordt ondersteund te evalueren. In dit artikel onderzoeken we of LLM-gebaseerde evaluatoren kunnen helpen bij het opschalen van meertalige evaluatie. Specifiek kalibreren we LLM-gebaseerde evaluatie aan de hand van 20.000 menselijke beoordelingen van vijf metrieken over drie tekstgeneratietaken in acht talen. Onze bevindingen geven aan dat LLM-gebaseerde evaluatoren mogelijk een bias vertonen naar hogere scores en met voorzichtigheid moeten worden gebruikt, en altijd gekalibreerd moeten worden met een dataset van beoordelingen door moedertaalsprekers, met name in talen met weinig bronnen en niet-Latijnse schriften.
English
Large Language Models (LLMs) have demonstrated impressive performance on
Natural Language Processing (NLP) tasks, such as Question Answering,
Summarization, and Classification. The use of LLMs as evaluators, that can rank
or score the output of other models (usually LLMs) has become increasingly
popular, due to the limitations of current evaluation techniques including the
lack of appropriate benchmarks, metrics, cost, and access to human annotators.
While LLMs are capable of handling approximately 100 languages, the majority of
languages beyond the top 20 lack systematic evaluation across various tasks,
metrics, and benchmarks. This creates an urgent need to scale up multilingual
evaluation to ensure a precise understanding of LLM performance across diverse
languages. LLM-based evaluators seem like the perfect solution to this problem,
as they do not require human annotators, human-created references, or
benchmarks and can theoretically be used to evaluate any language covered by
the LLM. In this paper, we investigate whether LLM-based evaluators can help
scale up multilingual evaluation. Specifically, we calibrate LLM-based
evaluation against 20k human judgments of five metrics across three
text-generation tasks in eight languages. Our findings indicate that LLM-based
evaluators may exhibit bias towards higher scores and should be used with
caution and should always be calibrated with a dataset of native speaker
judgments, particularly in low-resource and non-Latin script languages.