Ersetzen von Richtern durch Geschworene: Bewertung von LLM-Generationen mit einem Panel verschiedener Modelle
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models
April 29, 2024
Autoren: Pat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis
cs.AI
Zusammenfassung
Da Large Language Models (LLMs) immer fortschrittlicher geworden sind, haben sie unsere Fähigkeiten übertroffen, ihre Qualität genau zu bewerten. Es ist nicht nur schwierig, Daten zu finden, um bestimmte Modelleigenschaften angemessen zu untersuchen, sondern auch die Korrektheit der freiformen Generierung eines Modells allein zu bewerten, stellt eine Herausforderung dar. Um dem entgegenzuwirken, verlassen sich viele Bewertungen nun darauf, LLMs selbst als Richter zu verwenden, um die Qualität der Ausgaben anderer LLMs zu bewerten. Bewertungen verwenden in der Regel ein einzelnes großes Modell wie GPT4. Obwohl diese Methode an Popularität gewonnen hat, ist sie kostspielig, hat sich gezeigt, dass sie intramodellen Bias einführt, und in dieser Arbeit stellen wir fest, dass sehr große Modelle oft unnötig sind. Wir schlagen stattdessen vor, Modelle mithilfe eines Panels von LLM-Bewertern (PoLL) zu bewerten. Über drei verschiedene Richtereinstellungen und sechs verschiedene Datensätze hinweg stellen wir fest, dass die Verwendung eines PoLL, der aus einer größeren Anzahl kleinerer Modelle besteht, eine einzelne große Bewertung übertrifft, weniger intramodellen Bias aufweist aufgrund seiner Zusammensetzung aus verschiedenen Modellfamilien und dies alles, während es über siebenmal kostengünstiger ist.
English
As Large Language Models (LLMs) have become more advanced, they have outpaced
our abilities to accurately evaluate their quality. Not only is finding data to
adequately probe particular model properties difficult, but evaluating the
correctness of a model's freeform generation alone is a challenge. To address
this, many evaluations now rely on using LLMs themselves as judges to score the
quality of outputs from other LLMs. Evaluations most commonly use a single
large model like GPT4. While this method has grown in popularity, it is costly,
has been shown to introduce intramodel bias, and in this work, we find that
very large models are often unnecessary. We propose instead to evaluate models
using a Panel of LLm evaluators (PoLL). Across three distinct judge settings
and spanning six different datasets, we find that using a PoLL composed of a
larger number of smaller models outperforms a single large judge, exhibits less
intra-model bias due to its composition of disjoint model families, and does so
while being over seven times less expensive.Summary
AI-Generated Summary