ChatPaper.aiChatPaper

Juízes Quantitativos de LLM

Quantitative LLM Judges

June 3, 2025
Autores: Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
cs.AI

Resumo

LLM-as-a-judge é um framework no qual um modelo de linguagem de grande escala (LLM) avalia automaticamente a saída de outro LLM. Propomos juízes quantitativos de LLM, que alinham as pontuações de avaliação de juízes de LLM existentes às pontuações humanas em um determinado domínio, utilizando modelos de regressão. Esses modelos são treinados para melhorar a pontuação do juiz original, utilizando a avaliação textual e a pontuação do juiz. Apresentamos quatro juízes quantitativos para diferentes tipos de feedback absoluto e relativo, demonstrando a generalidade e versatilidade do nosso framework. Nosso framework é mais eficiente computacionalmente do que o ajuste fino supervisionado e pode ser mais eficiente estatisticamente quando o feedback humano é limitado, o que é esperado na maioria das aplicações do nosso trabalho. Validamos essas afirmações empiricamente em quatro conjuntos de dados, utilizando dois juízes base. Nossos experimentos mostram que os juízes quantitativos podem efetivamente melhorar o poder preditivo de juízes existentes por meio de modelagem pós-hoc.
English
LLM-as-a-judge is a framework in which a large language model (LLM) automatically evaluates the output of another LLM. We propose quantitative LLM judges, which align evaluation scores of existing LLM judges to human scores in a given domain using regression models. The models are trained to improve the score of the original judge by using the judge's textual evaluation and score. We present four quantitative judges for different types of absolute and relative feedback, which showcases the generality and versatility of our framework. Our framework is more computationally efficient than supervised fine-tuning and can be more statistically efficient when human feedback is limited, which is expected in most applications of our work. We validate these claims empirically on four datasets using two base judges. Our experiments show that quantitative judges can effectively improve the predictive power of existing judges through post-hoc modeling.
PDF52June 5, 2025