JuStRank: Bewertung von LLM-Richtern für System-Ranking

papers.abstract

Angesichts des raschen Fortschritts der generativen KI besteht ein dringender Bedarf, die zahlreichen verfügbaren Modelle und Konfigurationen systematisch zu vergleichen und auszuwählen. Das Ausmaß und die Vielseitigkeit solcher Bewertungen machen den Einsatz von LLM-basierten Richtern zu einer überzeugenden Lösung für diese Herausforderung. Entscheidend ist, dass dieser Ansatz zunächst die Qualität des LLM-Richters selbst validieren muss. Frühere Arbeiten haben sich auf die instanzbasierte Bewertung von LLM-Richtern konzentriert, bei der ein Richter über eine Reihe von Antworten oder Antwortpaaren bewertet wird, ohne auf ihre Ursprungssysteme einzugehen. Wir sind der Ansicht, dass diese Einstellung wichtige Faktoren, die die Rangfolge auf Systemebene beeinflussen, wie die positive oder negative Voreingenommenheit eines Richters gegenüber bestimmten Systemen, außer Acht lässt. Um diese Lücke zu schließen, führen wir die erste groß angelegte Studie von LLM-Richtern als Systemrangierer durch. Systembewertungen werden generiert, indem Bewertungspunkte über mehrere Systemausgaben aggregiert werden, und die Qualität des Richters wird durch den Vergleich der resultierenden Systemrangfolge mit einer auf Menschen basierenden Rangfolge bewertet. Über die allgemeine Richterbewertung hinaus liefert unsere Analyse eine detaillierte Charakterisierung des Richterverhaltens, einschließlich ihrer Entschlussfreudigkeit und Voreingenommenheit.

English

Given the rapid progress of generative AI, there is a pressing need to systematically compare and choose between the numerous models and configurations available. The scale and versatility of such evaluations make the use of LLM-based judges a compelling solution for this challenge. Crucially, this approach requires first to validate the quality of the LLM judge itself. Previous work has focused on instance-based assessment of LLM judges, where a judge is evaluated over a set of responses, or response pairs, while being agnostic to their source systems. We argue that this setting overlooks critical factors affecting system-level ranking, such as a judge's positive or negative bias towards certain systems. To address this gap, we conduct the first large-scale study of LLM judges as system rankers. System scores are generated by aggregating judgment scores over multiple system outputs, and the judge's quality is assessed by comparing the resulting system ranking to a human-based ranking. Beyond overall judge assessment, our analysis provides a fine-grained characterization of judge behavior, including their decisiveness and bias.

JuStRank: Bewertung von LLM-Richtern für System-Ranking

JuStRank: Benchmarking LLM Judges for System Ranking

papers.abstract

Support