Diagnosticando a Confiabilidade do LLM-como-Juiz por meio da Teoria de Resposta ao Item

Resumo

Embora o uso de LLM-como-Avaliador seja amplamente difundido na avaliação automatizada, as práticas de validação existentes operam principalmente no nível das saídas observadas, oferecendo insights limitados sobre se os próprios juízes LLM funcionam como instrumentos de medição estáveis e confiáveis. Para enfrentar essa limitação, introduzimos um framework de diagnóstico de duas fases para avaliar a confiabilidade do paradigma LLM-como-Avaliador, fundamentado na Teoria de Resposta ao Item (TRI). O framework adota o Modelo de Resposta Graduada (Graded Response Model - GRM) da TRI e formaliza a confiabilidade ao longo de duas dimensões complementares: (1) a consistência intrínseca, definida como a estabilidade do comportamento de medição sob variações de prompt, e (2) o alinhamento humano, que capta a correspondência com as avaliações de qualidade humanas. Examinamos empiricamente diversos juízes LLM com este framework e demonstramos que a utilização do modelo TRI-GRM produz sinais interpretáveis para diagnosticar julgamentos de forma sistemática. Esses sinais fornecem orientação prática para verificar a confiabilidade do LLM-como-Avaliador e identificar causas potenciais de inconsistência.

English

While LLM-as-a-Judge is widely used in automated evaluation, existing validation practices primarily operate at the level of observed outputs, offering limited insight into whether LLM judges themselves function as stable and reliable measurement instruments. To address this limitation, we introduce a two-phase diagnostic framework for assessing reliability of LLM-as-a-Judge, grounded in Item Response Theory (IRT). The framework adopts Graded Response Model (GRM) of IRT and formalizes reliability along two complementary dimensions: (1) intrinsic consistency, defined as the stability of measurement behavior under prompt variations, and (2) human alignment, capturing correspondence with human quality assessments. We empirically examine diverse LLM judges with this framework, and show that leveraging IRT-GRM yields interpretable signals for diagnosing judgments systematically. These signals provide practical guidance for verifying reliablity of LLM-as-a-Judge and identifying potential causes of unreliability.

Diagnosticando a Confiabilidade do LLM-como-Juiz por meio da Teoria de Resposta ao Item

Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory

Resumo

Support