Диагностика надежности LLM-как-судии с помощью теории заданий
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
January 31, 2026
Авторы: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI
Аннотация
Хотя подход LLM-as-a-Judge широко используется для автоматизированной оценки, существующие практики валидации в основном работают на уровне наблюдаемых выходных данных, предоставляя ограниченное представление о том, функционируют ли сами модели-судьи в качестве стабильных и надежных измерительных инструментов. Для решения этой проблемы мы предлагаем двухфазную диагностическую систему оценки надежности LLM-as-a-Judge, основанную на теории Item Response Theory (IRT). Данная система использует Graded Response Model (GRM) из IRT и формализует надежность по двум взаимодополняющим направлениям: (1) внутренняя согласованность, определяемая как стабильность измерительного поведения при вариациях промптов, и (2) соответствие человеческим оценкам, отражающее согласованность с экспертной оценкой качества человеком. Мы эмпирически исследуем различные модели-судьи с помощью этой системы и показываем, что использование IRT-GRM дает интерпретируемые сигналы для систематической диагностики суждений. Эти сигналы предоставляют практические рекомендации для проверки надежности подхода LLM-as-a-Judge и выявления потенциальных причин ненадежности.
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.