Diagnosticare l'Affidabilità di LLM-come-Giudice tramite la Teoria della Risposta all'Item
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
January 31, 2026
Autori: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI
Abstract
Sebbene l'approccio LLM-as-a-Judge sia ampiamente utilizzato nella valutazione automatizzata, le pratiche di validazione esistenti operano principalmente a livello di output osservati, offrendo una comprensione limitata sul fatto che i giudici LLM stessi funzionino come strumenti di misurazione stabili e affidabili. Per affrontare questa limitazione, introduciamo un framework diagnostico in due fasi per valutare l'affidabilità di LLM-as-a-Judge, basato sulla Teoria della Risposta all'Item (IRT). Il framework adotta il Modello di Risposta Graduata (GRM) dell'IRT e formalizza l'affidabilità lungo due dimensioni complementari: (1) la consistenza intrinseca, definita come la stabilità del comportamento di misurazione sotto variazioni del prompt, e (2) l'allineamento umano, che cattura la corrispondenza con le valutazioni qualitative umane. Esaminiamo empiricamente diversi giudici LLM con questo framework e dimostriamo che l'utilizzo di IRT-GRM produce segnali interpretabili per diagnosticare i giudizi in modo sistematico. Questi segnali forniscono una guida pratica per verificare l'affidabilità di LLM-as-a-Judge e identificare le potenziali cause di inaffidabilità.
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.