JuStRank: Bewertung von LLM-Richtern für System-Ranking
JuStRank: Benchmarking LLM Judges for System Ranking
December 12, 2024
Autoren: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
cs.AI
Zusammenfassung
Angesichts des raschen Fortschritts der generativen KI besteht ein dringender Bedarf, die zahlreichen verfügbaren Modelle und Konfigurationen systematisch zu vergleichen und auszuwählen. Das Ausmaß und die Vielseitigkeit solcher Bewertungen machen den Einsatz von LLM-basierten Richtern zu einer überzeugenden Lösung für diese Herausforderung. Entscheidend ist, dass dieser Ansatz zunächst die Qualität des LLM-Richters selbst validieren muss. Frühere Arbeiten haben sich auf die instanzbasierte Bewertung von LLM-Richtern konzentriert, bei der ein Richter über eine Reihe von Antworten oder Antwortpaaren bewertet wird, ohne auf ihre Ursprungssysteme einzugehen. Wir sind der Ansicht, dass diese Einstellung wichtige Faktoren, die die Rangfolge auf Systemebene beeinflussen, wie die positive oder negative Voreingenommenheit eines Richters gegenüber bestimmten Systemen, außer Acht lässt. Um diese Lücke zu schließen, führen wir die erste groß angelegte Studie von LLM-Richtern als Systemrangierer durch. Systembewertungen werden generiert, indem Bewertungspunkte über mehrere Systemausgaben aggregiert werden, und die Qualität des Richters wird durch den Vergleich der resultierenden Systemrangfolge mit einer auf Menschen basierenden Rangfolge bewertet. Über die allgemeine Richterbewertung hinaus liefert unsere Analyse eine detaillierte Charakterisierung des Richterverhaltens, einschließlich ihrer Entschlussfreudigkeit und Voreingenommenheit.
English
Given the rapid progress of generative AI, there is a pressing need to
systematically compare and choose between the numerous models and
configurations available. The scale and versatility of such evaluations make
the use of LLM-based judges a compelling solution for this challenge.
Crucially, this approach requires first to validate the quality of the LLM
judge itself. Previous work has focused on instance-based assessment of LLM
judges, where a judge is evaluated over a set of responses, or response pairs,
while being agnostic to their source systems. We argue that this setting
overlooks critical factors affecting system-level ranking, such as a judge's
positive or negative bias towards certain systems. To address this gap, we
conduct the first large-scale study of LLM judges as system rankers. System
scores are generated by aggregating judgment scores over multiple system
outputs, and the judge's quality is assessed by comparing the resulting system
ranking to a human-based ranking. Beyond overall judge assessment, our analysis
provides a fine-grained characterization of judge behavior, including their
decisiveness and bias.Summary
AI-Generated Summary