LLM 판단 신뢰도 진단: 문항 반응 이론을 활용하여
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
January 31, 2026
저자: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI
초록
LLM-as-a-Judge(대규모 언어 모델 평가 주체 활용)는 자동화 평가에 널리 사용되고 있지만, 기존 검증 관행은 주로 관측된 출력 수준에서 운영되어 LLM 평가 주체 자체가 안정적이고 신뢰할 수 있는 측정 도구로 기능하는지에 대한 통찰력이 제한적입니다. 이러한 한계를 해결하기 위해 우리는 문항 반응 이론(IRT)에 기반하여 LLM-as-a-Judge의 신뢰도를 평가하는 2단계 진단 프레임워크를 제안합니다. 본 프레임워크는 IRT의 등급 반응 모델(GRM)을 채택하고 신뢰도를 두 가지 상호 보완적인 차원으로 정형화합니다: (1) 프롬프트 변동 하에서 측정 행동의 안정성으로 정의되는 내적 일관성, (2) 인간의 품질 평가와의 일치도를 포착하는 인간 정합성. 우리는 이 프레임워크로 다양한 LLM 평가 주체를 실증적으로 분석하고, IRT-GRM을 활용하면 판단을 체계적으로 진단하는 해석 가능한 신호를 얻을 수 있음을 보여줍니다. 이러한 신호는 LLM-as-a-Judge의 신뢰도 검증 및 신뢰도 결핍의 잠재적 원인 식별에 실용적인 지침을 제공합니다.
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.