ChatPaper.aiChatPaper

Étalonnage de l'évaluateur basé sur LLM

Calibrating LLM-Based Evaluator

September 23, 2023
Auteurs: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI

Résumé

Les récents progrès des grands modèles de langage (LLMs) en modélisation du langage et leurs capacités émergentes en font un évaluateur prometteur sans référence de la qualité de génération de langage naturel, ainsi qu'une alternative compétente à l'évaluation humaine. Cependant, freinés par leur nature propriétaire ou par les exigences computationnelles élevées nécessaires pour les héberger et les ajuster, il manque une pratique pour calibrer davantage un évaluateur basé sur un LLM prêt à l'emploi afin de mieux l'aligner avec les préférences humaines. Dans ce travail, nous proposons AutoCalibrate, une approche multi-étapes et sans gradient pour calibrer et aligner automatiquement un évaluateur basé sur un LLM en fonction des préférences humaines. Au lieu de modéliser explicitement les préférences humaines, nous les intégrons d'abord implicitement dans un ensemble d'étiquettes humaines. Ensuite, un ensemble initial de critères de notation est rédigé par le modèle de langage lui-même, en exploitant l'apprentissage en contexte sur différents exemples en few-shot. Pour calibrer davantage cet ensemble de critères, nous sélectionnons les meilleurs et les rédigeons à nouveau par auto-affinage. Nos expériences sur plusieurs ensembles de données d'évaluation de la qualité de texte montrent une amélioration significative de la corrélation avec l'évaluation experte grâce à la calibration. Notre analyse qualitative approfondie révèle des intuitions et observations perspicaces sur l'essence des critères de notation efficaces.
English
Recent advancements in large language models (LLMs) on language modeling and emergent capabilities make them a promising reference-free evaluator of natural language generation quality, and a competent alternative to human evaluation. However, hindered by the closed-source or high computational demand to host and tune, there is a lack of practice to further calibrate an off-the-shelf LLM-based evaluator towards better human alignment. In this work, we propose AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate and align an LLM-based evaluator toward human preference. Instead of explicitly modeling human preferences, we first implicitly encompass them within a set of human labels. Then, an initial set of scoring criteria is drafted by the language model itself, leveraging in-context learning on different few-shot examples. To further calibrate this set of criteria, we select the best performers and re-draft them with self-refinement. Our experiments on multiple text quality evaluation datasets illustrate a significant improvement in correlation with expert evaluation through calibration. Our comprehensive qualitative analysis conveys insightful intuitions and observations on the essence of effective scoring criteria.
PDF121December 15, 2024