Juges quantitatifs de modèles de langage (LLM)
Quantitative LLM Judges
June 3, 2025
Auteurs: Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
cs.AI
Résumé
LLM-as-a-judge est un cadre dans lequel un modèle de langage de grande taille (LLM) évalue automatiquement la sortie d'un autre LLM. Nous proposons des juges quantitatifs LLM, qui alignent les scores d'évaluation des juges LLM existants sur les scores humains dans un domaine donné en utilisant des modèles de régression. Ces modèles sont entraînés pour améliorer le score du juge original en utilisant l'évaluation textuelle et le score du juge. Nous présentons quatre juges quantitatifs pour différents types de retours absolus et relatifs, ce qui démontre la généralité et la polyvalence de notre cadre. Notre cadre est plus efficace sur le plan computationnel que le réglage fin supervisé et peut être plus efficace statistiquement lorsque les retours humains sont limités, ce qui est attendu dans la plupart des applications de notre travail. Nous validons ces affirmations empiriquement sur quatre ensembles de données en utilisant deux juges de base. Nos expériences montrent que les juges quantitatifs peuvent efficacement améliorer la puissance prédictive des juges existants grâce à une modélisation post-hoc.
English
LLM-as-a-judge is a framework in which a large language model (LLM)
automatically evaluates the output of another LLM. We propose quantitative LLM
judges, which align evaluation scores of existing LLM judges to human scores in
a given domain using regression models. The models are trained to improve the
score of the original judge by using the judge's textual evaluation and score.
We present four quantitative judges for different types of absolute and
relative feedback, which showcases the generality and versatility of our
framework. Our framework is more computationally efficient than supervised
fine-tuning and can be more statistically efficient when human feedback is
limited, which is expected in most applications of our work. We validate these
claims empirically on four datasets using two base judges. Our experiments show
that quantitative judges can effectively improve the predictive power of
existing judges through post-hoc modeling.