JuStRank: Benchmarking van LLM-rechters voor systeemrangschikking
JuStRank: Benchmarking LLM Judges for System Ranking
December 12, 2024
Auteurs: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
cs.AI
Samenvatting
Gezien de snelle vooruitgang van generatieve AI is er een dringende behoefte om systematisch de talrijke modellen en configuraties te vergelijken en te kiezen. De schaal en veelzijdigheid van dergelijke evaluaties maken het gebruik van op LLM gebaseerde beoordelaars tot een overtuigende oplossing voor deze uitdaging. Belangrijk is dat deze benadering eerst de kwaliteit van de LLM-beoordelaar zelf moet valideren. Eerdere onderzoeken hebben zich gericht op instantie-gebaseerde beoordeling van LLM-beoordelaars, waarbij een beoordelaar wordt geëvalueerd over een reeks reacties, of reactieparen, terwijl ze onverschillig zijn ten opzichte van hun bronsystemen. Wij betogen dat deze instelling cruciale factoren over het hoofd ziet die van invloed zijn op de rangschikking op systeemniveau, zoals een positieve of negatieve vooringenomenheid van een beoordelaar ten opzichte van bepaalde systemen. Om deze lacune aan te pakken, voeren we de eerste grootschalige studie uit van LLM-beoordelaars als systeemrangschikkers. Systeemscores worden gegenereerd door beoordelingsscores over meerdere systeemuitvoer samen te voegen, en de kwaliteit van de beoordelaar wordt beoordeeld door de resulterende systeemrangschikking te vergelijken met een op mensen gebaseerde rangschikking. Naast de algehele beoordeling van de beoordelaar biedt onze analyse een gedetailleerde karakterisering van het gedrag van de beoordelaar, inclusief hun besluitvaardigheid en vooringenomenheid.
English
Given the rapid progress of generative AI, there is a pressing need to
systematically compare and choose between the numerous models and
configurations available. The scale and versatility of such evaluations make
the use of LLM-based judges a compelling solution for this challenge.
Crucially, this approach requires first to validate the quality of the LLM
judge itself. Previous work has focused on instance-based assessment of LLM
judges, where a judge is evaluated over a set of responses, or response pairs,
while being agnostic to their source systems. We argue that this setting
overlooks critical factors affecting system-level ranking, such as a judge's
positive or negative bias towards certain systems. To address this gap, we
conduct the first large-scale study of LLM judges as system rankers. System
scores are generated by aggregating judgment scores over multiple system
outputs, and the judge's quality is assessed by comparing the resulting system
ranking to a human-based ranking. Beyond overall judge assessment, our analysis
provides a fine-grained characterization of judge behavior, including their
decisiveness and bias.