Étalonnage de l'évaluateur basé sur LLM
Calibrating LLM-Based Evaluator
September 23, 2023
Auteurs: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Résumé
Les récents progrès des grands modèles de langage (LLMs) en modélisation du langage et leurs capacités émergentes en font un évaluateur prometteur sans référence de la qualité de génération de langage naturel, ainsi qu'une alternative compétente à l'évaluation humaine. Cependant, freinés par leur nature propriétaire ou par les exigences computationnelles élevées nécessaires pour les héberger et les ajuster, il manque une pratique pour calibrer davantage un évaluateur basé sur un LLM prêt à l'emploi afin de mieux l'aligner avec les préférences humaines. Dans ce travail, nous proposons AutoCalibrate, une approche multi-étapes et sans gradient pour calibrer et aligner automatiquement un évaluateur basé sur un LLM en fonction des préférences humaines. Au lieu de modéliser explicitement les préférences humaines, nous les intégrons d'abord implicitement dans un ensemble d'étiquettes humaines. Ensuite, un ensemble initial de critères de notation est rédigé par le modèle de langage lui-même, en exploitant l'apprentissage en contexte sur différents exemples en few-shot. Pour calibrer davantage cet ensemble de critères, nous sélectionnons les meilleurs et les rédigeons à nouveau par auto-affinage. Nos expériences sur plusieurs ensembles de données d'évaluation de la qualité de texte montrent une amélioration significative de la corrélation avec l'évaluation experte grâce à la calibration. Notre analyse qualitative approfondie révèle des intuitions et observations perspicaces sur l'essence des critères de notation efficaces.
English
Recent advancements in large language models (LLMs) on language modeling and
emergent capabilities make them a promising reference-free evaluator of natural
language generation quality, and a competent alternative to human evaluation.
However, hindered by the closed-source or high computational demand to host and
tune, there is a lack of practice to further calibrate an off-the-shelf
LLM-based evaluator towards better human alignment. In this work, we propose
AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate
and align an LLM-based evaluator toward human preference. Instead of explicitly
modeling human preferences, we first implicitly encompass them within a set of
human labels. Then, an initial set of scoring criteria is drafted by the
language model itself, leveraging in-context learning on different few-shot
examples. To further calibrate this set of criteria, we select the best
performers and re-draft them with self-refinement. Our experiments on multiple
text quality evaluation datasets illustrate a significant improvement in
correlation with expert evaluation through calibration. Our comprehensive
qualitative analysis conveys insightful intuitions and observations on the
essence of effective scoring criteria.