ChatPaper.aiChatPaper

Rechters vervangen door jury's: Evaluatie van LLM-generaties met een panel van diverse modellen

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

April 29, 2024
Auteurs: Pat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis
cs.AI

Samenvatting

Naarmate grote taalmmodellen (LLM's) geavanceerder zijn geworden, hebben ze onze mogelijkheden om hun kwaliteit nauwkeurig te evalueren overtroffen. Het is niet alleen moeilijk om geschikte data te vinden om specifieke modelkenmerken adequaat te onderzoeken, maar ook het beoordelen van de juistheid van de vrije tekstgeneratie van een model op zich is een uitdaging. Om dit aan te pakken, vertrouwen veel evaluaties nu op het gebruik van LLM's zelf als beoordelaars om de kwaliteit van uitvoer van andere LLM's te scoren. Evaluaties maken meestal gebruik van één groot model zoals GPT-4. Hoewel deze methode in populariteit is toegenomen, is het kostbaar, is aangetoond dat het intramodelbias introduceert, en in dit werk ontdekken we dat zeer grote modellen vaak overbodig zijn. Wij stellen in plaats daarvan voor om modellen te evalueren met behulp van een Panel van LLM-beoordelaars (PoLL). Over drie verschillende beoordelaarsinstellingen en verspreid over zes verschillende datasets, ontdekken we dat het gebruik van een PoLL bestaande uit een groter aantal kleinere modellen een enkel groot beoordelingsmodel overtreft, minder intramodelbias vertoont vanwege de samenstelling van verschillende modelfamilies, en dit doet terwijl het meer dan zeven keer minder kost.
English
As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model's freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.
PDF713December 15, 2024