Diagnostiquer la fiabilité de l'évaluateur LLM via la théorie de réponse à l'item
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
January 31, 2026
papers.authors: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI
papers.abstract
Bien que l'utilisation des LLM en tant qu'évaluateurs soit largement répandue dans l'évaluation automatisée, les pratiques de validation existantes opèrent principalement au niveau des résultats observés, offrant une vision limitée quant à savoir si les juges LLM eux-mêmes fonctionnent comme des instruments de mesure stables et fiables. Pour remédier à cette limite, nous proposons un cadre diagnostique en deux phases pour évaluer la fiabilité des LLM en tant qu'évaluateurs, fondé sur la théorie de la réponse à l'item (TRI). Ce cadre adopte le modèle de réponse graduée (GRM) de la TRI et formalise la fiabilité selon deux dimensions complémentaires : (1) la cohérence intrinsèque, définie comme la stabilité du comportement de mesure face à des variations des prompts, et (2) l'alignement humain, qui capture la correspondance avec les évaluations humaines de la qualité. Nous examinons empiriquement divers juges LLM avec ce cadre et montrons que l'utilisation du modèle TRI-GRM produit des signaux interprétables pour diagnostiquer systématiquement les jugements. Ces signaux fournissent des indications pratiques pour vérifier la fiabilité des LLM en tant qu'évaluateurs et identifier les causes potentielles de leur manque de fiabilité.
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.