Diagnóstico de la Fiabilidad de los Modelos de Lenguaje Grandes como Evaluadores mediante la Teoría de Respuesta al Ítem
Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory
January 31, 2026
Autores: Junhyuk Choi, Sohhyung Park, Chanhee Cho, Hyeonchu Park, Bugeun Kim
cs.AI
Resumen
Si bien el uso de LLM como juez está ampliamente extendido en la evaluación automatizada, las prácticas de validación existentes operan principalmente a nivel de los resultados observados, ofreciendo una visión limitada sobre si los propios jueces basados en LLM funcionan como instrumentos de medición estables y fiables. Para abordar esta limitación, presentamos un marco de diagnóstico en dos fases para evaluar la fiabilidad de LLM-como-juez, fundamentado en la Teoría de Respuesta al Ítem (TRI). El marco adopta el Modelo de Respuesta Gradual (GRM) de la TRI y formaliza la fiabilidad en dos dimensiones complementarias: (1) la consistencia intrínseca, definida como la estabilidad del comportamiento de medición bajo variaciones en las instrucciones (prompts), y (2) la alineación humana, que captura la correspondencia con las evaluaciones de calidad humanas. Examinamos empíricamente diversos jueces basados en LLM con este marco y demostramos que el aprovechamiento de TRI-GRM produce señales interpretables para diagnosticar los juicios de manera sistemática. Estas señales proporcionan una guía práctica para verificar la fiabilidad de LLM-como-juez e identificar las causas potenciales de falta de fiabilidad.
English
While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.