項目反応理論によるLLM-as-a-Judgeの信頼性診断
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
January 31, 2026
著者: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI
要旨
LLM-as-a-Judgeは自動評価として広く利用されているが、既存の検証手法は主に観測された出力レベルで行われており、LLM判定器自体が安定した信頼性のある測定器として機能しているかについての知見は限られている。この課題を解決するため、項目反応理論(IRT)に基づく、LLM-as-a-Judgeの信頼性を評価する2段階診断フレームワークを提案する。本フレームワークはIRTの段階反応モデル(GRM)を採用し、信頼性を2つの相補的次元で定式化する:(1)内的整合性(プロンプト変動下での測定行動の安定性として定義)、(2)人間整合性(人間の品質評価との一致度)。本フレームワークを用いて多様なLLM判定器を実証的に検証し、IRT-GRMを活用することで、判断を体系的に診断するための解釈可能な信号が得られることを示す。これらの信号は、LLM-as-a-Judgeの信頼性を検証し、信頼性低下の潜在的要因を特定する実践的な指針を提供する。
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.