Calibrazione del Valutatore Basato su LLM
Calibrating LLM-Based Evaluator
September 23, 2023
Autori: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Abstract
I recenti progressi nei grandi modelli linguistici (LLM) nel campo della modellazione del linguaggio e delle capacità emergenti li rendono un promettente valutatore senza riferimento della qualità della generazione del linguaggio naturale, e una valida alternativa alla valutazione umana. Tuttavia, ostacolati dalla natura closed-source o dall'elevata richiesta computazionale necessaria per ospitarli e adattarli, manca una pratica consolidata per calibrare ulteriormente un valutatore basato su LLM preconfigurato verso un migliore allineamento con le preferenze umane. In questo lavoro, proponiamo AutoCalibrate, un approccio multi-stadio e senza gradienti per calibrare e allineare automaticamente un valutatore basato su LLM alle preferenze umane. Invece di modellare esplicitamente le preferenze umane, le includiamo implicitamente all'interno di un insieme di etichette umane. Successivamente, un insieme iniziale di criteri di valutazione viene redatto dal modello linguistico stesso, sfruttando l'apprendimento in-context su diversi esempi few-shot. Per calibrare ulteriormente questo insieme di criteri, selezioniamo i migliori performer e li rielaboriamo attraverso un processo di auto-affinamento. I nostri esperimenti su più dataset di valutazione della qualità del testo mostrano un significativo miglioramento nella correlazione con la valutazione esperta grazie alla calibrazione. La nostra analisi qualitativa completa fornisce intuizioni e osservazioni approfondite sull'essenza dei criteri di valutazione efficaci.
English
Recent advancements in large language models (LLMs) on language modeling and
emergent capabilities make them a promising reference-free evaluator of natural
language generation quality, and a competent alternative to human evaluation.
However, hindered by the closed-source or high computational demand to host and
tune, there is a lack of practice to further calibrate an off-the-shelf
LLM-based evaluator towards better human alignment. In this work, we propose
AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate
and align an LLM-based evaluator toward human preference. Instead of explicitly
modeling human preferences, we first implicitly encompass them within a set of
human labels. Then, an initial set of scoring criteria is drafted by the
language model itself, leveraging in-context learning on different few-shot
examples. To further calibrate this set of criteria, we select the best
performers and re-draft them with self-refinement. Our experiments on multiple
text quality evaluation datasets illustrate a significant improvement in
correlation with expert evaluation through calibration. Our comprehensive
qualitative analysis conveys insightful intuitions and observations on the
essence of effective scoring criteria.