Diagnose der Zuverlässigkeit von LLM-als-Bewerter mittels Item-Response-Theorie
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
January 31, 2026
papers.authors: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI
papers.abstract
Während LLM-as-a-Judge weit verbreitet in der automatisierten Evaluation eingesetzt wird, operieren bestehende Validierungspraktiken primär auf der Ebene beobachteter Outputs und bieten nur begrenzte Einblicke darin, ob LLM-Judge-Systeme selbst als stabile und zuverlässige Messinstrumente fungieren. Um diese Limitation zu adressieren, führen wir einen zweiphasigen diagnostischen Rahmen zur Bewertung der Zuverlässigkeit von LLM-as-a-Judge ein, der in der Item-Response-Theorie (IRT) verankert ist. Der Rahmen adaptiert das Graded Response Model (GRM) der IRT und formalisiert Zuverlässigkeit entlang zweier komplementärer Dimensionen: (1) intrinsische Konsistenz, definiert als die Stabilität des Messverhaltens unter Variationen der Prompts, und (2) menschliche Übereinstimmung, die die Korrespondenz mit menschlichen Qualitätsbewertungen erfasst. Wir untersuchen empirisch diverse LLM-Judge-Systeme mit diesem Rahmen und zeigen, dass die Nutzung von IRT-GRM interpretierbare Signale für eine systematische Diagnose von Bewertungen liefert. Diese Signale bieten praktische Anleitung zur Überprüfung der Zuverlässigkeit von LLM-as-a-Judge und zur Identifizierung potenzieller Ursachen von Unzuverlässigkeit.
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.