ChatPaper.aiChatPaper

Evaluadores Cuantitativos de Modelos de Lenguaje Grande

Quantitative LLM Judges

June 3, 2025
Autores: Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
cs.AI

Resumen

LLM-as-a-judge es un marco en el que un modelo de lenguaje grande (LLM) evalúa automáticamente la salida de otro LLM. Proponemos jueces cuantitativos basados en LLM, que alinean las puntuaciones de evaluación de jueces LLM existentes con las puntuaciones humanas en un dominio específico utilizando modelos de regresión. Estos modelos se entrenan para mejorar la puntuación del juez original utilizando la evaluación textual y la puntuación del juez. Presentamos cuatro jueces cuantitativos para diferentes tipos de retroalimentación absoluta y relativa, lo que demuestra la generalidad y versatilidad de nuestro marco. Nuestro marco es más eficiente computacionalmente que el ajuste fino supervisado y puede ser más eficiente estadísticamente cuando el feedback humano es limitado, lo cual es esperado en la mayoría de las aplicaciones de nuestro trabajo. Validamos estas afirmaciones empíricamente en cuatro conjuntos de datos utilizando dos jueces base. Nuestros experimentos muestran que los jueces cuantitativos pueden mejorar efectivamente el poder predictivo de los jueces existentes a través de modelado post-hoc.
English
LLM-as-a-judge is a framework in which a large language model (LLM) automatically evaluates the output of another LLM. We propose quantitative LLM judges, which align evaluation scores of existing LLM judges to human scores in a given domain using regression models. The models are trained to improve the score of the original judge by using the judge's textual evaluation and score. We present four quantitative judges for different types of absolute and relative feedback, which showcases the generality and versatility of our framework. Our framework is more computationally efficient than supervised fine-tuning and can be more statistically efficient when human feedback is limited, which is expected in most applications of our work. We validate these claims empirically on four datasets using two base judges. Our experiments show that quantitative judges can effectively improve the predictive power of existing judges through post-hoc modeling.
PDF42June 5, 2025