ChatPaper.aiChatPaper

Diagnose van de Betrouwbaarheid van LLM-als-Rechter via Item Response Theorie

Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory

January 31, 2026
Auteurs: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI

Samenvatting

Hoewel LLM-as-a-Judge veelvuldig wordt gebruikt voor geautomatiseerde evaluatie, opereren bestaande validatiepraktijken voornamelijk op het niveau van geobserveerde outputs, wat beperkt inzicht biedt in of LLM-rechters zelf functioneren als stabiele en betrouwbare meetinstrumenten. Om deze beperking aan te pakken, introduceren we een diagnostisch kader met twee fasen voor het beoordelen van de betrouwbaarheid van LLM-as-a-Judge, gebaseerd op de Item Response Theorie (IRT). Het kader adopteert het Graded Response Model (GRM) van IRT en formaliseert betrouwbaarheid langs twee complementaire dimensies: (1) intrinsieke consistentie, gedefinieerd als de stabiliteit van meetgedrag bij promptvariaties, en (2) menselijke afstemming, die de overeenkomst met menselijke kwaliteitsbeoordelingen vaststelt. We onderzoeken empirisch diverse LLM-rechters met dit kader en tonen aan dat het gebruik van IRT-GRM interpreteerbare signalen oplevert voor het systematisch diagnosticeren van oordelen. Deze signalen bieden praktische richtlijnen voor het verifiëren van de betrouwbaarheid van LLM-as-a-Judge en het identificeren van mogelijke oorzaken van onbetrouwbaarheid.
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.
PDF02March 12, 2026