Julgando os Juízes: Avaliando a Coerência e Vulnerabilidades em LLMs-como-Juízes
Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges
June 18, 2024
Autores: Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes
cs.AI
Resumo
Oferecendo uma solução promissora para os desafios de escalabilidade associados à avaliação humana, o paradigma LLM-como-juiz está ganhando rapidamente destaque como uma abordagem para avaliar grandes modelos de linguagem (LLMs). No entanto, ainda existem muitas questões em aberto sobre as forças e fraquezas desse paradigma, e quais possíveis viéses ele pode conter. Neste artigo, apresentamos um estudo abrangente do desempenho de vários LLMs atuando como juízes. Utilizamos o TriviaQA como referência para avaliar o raciocínio de conhecimento objetivo dos LLMs e os avaliamos junto com anotações humanas que identificamos ter uma alta concordância entre anotadores. Nosso estudo inclui 9 modelos de juízes e 9 modelos de examinadores - ambos base e ajustados por instruções. Avaliamos a concordância do modelo juiz em diferentes tamanhos de modelo, famílias e estímulos de juiz. Entre outros resultados, nossa pesquisa redescobre a importância de usar o kappa de Cohen como métrica de concordância em oposição ao simples acordo percentual, mostrando que juízes com alto acordo percentual ainda podem atribuir pontuações muito diferentes. Descobrimos que tanto o Llama-3 70B quanto o GPT-4 Turbo têm uma excelente concordância com os humanos, mas em termos de classificação dos modelos de examinadores, são superados tanto pelo JudgeLM-7B quanto pelo juiz lexical Contains, que têm até 34 pontos a menos de concordância humana. Através da análise de erros e vários outros estudos, incluindo os efeitos do comprimento da instrução e do viés de leniência, esperamos fornecer lições valiosas para o uso de LLMs como juízes no futuro.
English
Offering a promising solution to the scalability challenges associated with
human evaluation, the LLM-as-a-judge paradigm is rapidly gaining traction as an
approach to evaluating large language models (LLMs). However, there are still
many open questions about the strengths and weaknesses of this paradigm, and
what potential biases it may hold. In this paper, we present a comprehensive
study of the performance of various LLMs acting as judges. We leverage TriviaQA
as a benchmark for assessing objective knowledge reasoning of LLMs and evaluate
them alongside human annotations which we found to have a high inter-annotator
agreement. Our study includes 9 judge models and 9 exam taker models -- both
base and instruction-tuned. We assess the judge model's alignment across
different model sizes, families, and judge prompts. Among other results, our
research rediscovers the importance of using Cohen's kappa as a metric of
alignment as opposed to simple percent agreement, showing that judges with high
percent agreement can still assign vastly different scores. We find that both
Llama-3 70B and GPT-4 Turbo have an excellent alignment with humans, but in
terms of ranking exam taker models, they are outperformed by both JudgeLM-7B
and the lexical judge Contains, which have up to 34 points lower human
alignment. Through error analysis and various other studies, including the
effects of instruction length and leniency bias, we hope to provide valuable
lessons for using LLMs as judges in the future.