Sind Evaluatoren auf Basis großer Sprachmodelle die Lösung für die Skalierung multilingvaler Evaluation?
Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?
September 14, 2023
Autoren: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt, wie etwa bei der Beantwortung von Fragen, der Zusammenfassung und der Klassifizierung. Die Verwendung von LLMs als Bewerter, die die Ausgaben anderer Modelle (meist ebenfalls LLMs) bewerten oder bewerten können, ist aufgrund der Grenzen aktueller Bewertungstechniken, einschließlich des Mangels an geeigneten Benchmarks, Metriken, Kosten und des Zugangs zu menschlichen Annotatoren, immer beliebter geworden. Während LLMs in der Lage sind, etwa 100 Sprachen zu verarbeiten, fehlt es bei der Mehrheit der Sprachen jenseits der Top 20 an systematischen Bewertungen über verschiedene Aufgaben, Metriken und Benchmarks hinweg. Dies schafft einen dringenden Bedarf, die mehrsprachige Bewertung zu skalieren, um ein präzises Verständnis der Leistung von LLMs in verschiedenen Sprachen zu gewährleisten. LLM-basierte Bewerter scheinen die perfekte Lösung für dieses Problem zu sein, da sie keine menschlichen Annotatoren, von Menschen erstellte Referenzen oder Benchmarks benötigen und theoretisch zur Bewertung jeder von dem LLM abgedeckten Sprache verwendet werden können. In diesem Artikel untersuchen wir, ob LLM-basierte Bewerter dazu beitragen können, die mehrsprachige Bewertung zu skalieren. Konkret kalibrieren wir die LLM-basierte Bewertung anhand von 20.000 menschlichen Bewertungen von fünf Metriken über drei Textgenerierungsaufgaben in acht Sprachen. Unsere Ergebnisse deuten darauf hin, dass LLM-basierte Bewerter eine Tendenz zu höheren Bewertungen aufweisen können und mit Vorsicht verwendet werden sollten. Sie sollten stets mit einem Datensatz von Bewertungen muttersprachlicher Sprecher kalibriert werden, insbesondere bei ressourcenarmen Sprachen und Sprachen mit nicht-lateinischen Schriftsystemen.
English
Large Language Models (LLMs) have demonstrated impressive performance on
Natural Language Processing (NLP) tasks, such as Question Answering,
Summarization, and Classification. The use of LLMs as evaluators, that can rank
or score the output of other models (usually LLMs) has become increasingly
popular, due to the limitations of current evaluation techniques including the
lack of appropriate benchmarks, metrics, cost, and access to human annotators.
While LLMs are capable of handling approximately 100 languages, the majority of
languages beyond the top 20 lack systematic evaluation across various tasks,
metrics, and benchmarks. This creates an urgent need to scale up multilingual
evaluation to ensure a precise understanding of LLM performance across diverse
languages. LLM-based evaluators seem like the perfect solution to this problem,
as they do not require human annotators, human-created references, or
benchmarks and can theoretically be used to evaluate any language covered by
the LLM. In this paper, we investigate whether LLM-based evaluators can help
scale up multilingual evaluation. Specifically, we calibrate LLM-based
evaluation against 20k human judgments of five metrics across three
text-generation tasks in eight languages. Our findings indicate that LLM-based
evaluators may exhibit bias towards higher scores and should be used with
caution and should always be calibrated with a dataset of native speaker
judgments, particularly in low-resource and non-Latin script languages.