Kalibrierung des LLM-basierten Evaluators
Calibrating LLM-Based Evaluator
September 23, 2023
Autoren: Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) in Bezug auf Sprachmodellierung und emergente Fähigkeiten machen sie zu einem vielversprechenden, referenzfreien Evaluator für die Qualität der natürlichen Sprachgenerierung und zu einer kompetenten Alternative zur menschlichen Bewertung. Allerdings wird die Praxis, einen vorgefertigten LLM-basierten Evaluator weiter zu kalibrieren, um eine bessere Übereinstimmung mit menschlichen Präferenzen zu erreichen, durch geschlossene Quellen oder den hohen Rechenaufwand für das Hosten und Feinabstimmung behindert. In dieser Arbeit schlagen wir AutoCalibrate vor, einen mehrstufigen, gradientenfreien Ansatz zur automatischen Kalibrierung und Ausrichtung eines LLM-basierten Evaluators an menschlichen Präferenzen. Anstatt menschliche Präferenzen explizit zu modellieren, erfassen wir sie zunächst implizit innerhalb eines Satzes von menschlichen Labels. Dann wird ein initialer Satz von Bewertungskriterien vom Sprachmodell selbst erstellt, wobei In-Context-Lernen anhand verschiedener Few-Shot-Beispiele genutzt wird. Um diesen Satz von Kriterien weiter zu kalibrieren, wählen wir die besten Kriterien aus und überarbeiten sie durch Selbstverfeinerung. Unsere Experimente auf mehreren Datensätzen zur Textqualitätsbewertung zeigen eine signifikante Verbesserung der Korrelation mit der Expertenbewertung durch die Kalibrierung. Unsere umfassende qualitative Analyse vermittelt tiefgreifende Intuitionen und Beobachtungen über das Wesen effektiver Bewertungskriterien.
English
Recent advancements in large language models (LLMs) on language modeling and
emergent capabilities make them a promising reference-free evaluator of natural
language generation quality, and a competent alternative to human evaluation.
However, hindered by the closed-source or high computational demand to host and
tune, there is a lack of practice to further calibrate an off-the-shelf
LLM-based evaluator towards better human alignment. In this work, we propose
AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate
and align an LLM-based evaluator toward human preference. Instead of explicitly
modeling human preferences, we first implicitly encompass them within a set of
human labels. Then, an initial set of scoring criteria is drafted by the
language model itself, leveraging in-context learning on different few-shot
examples. To further calibrate this set of criteria, we select the best
performers and re-draft them with self-refinement. Our experiments on multiple
text quality evaluation datasets illustrate a significant improvement in
correlation with expert evaluation through calibration. Our comprehensive
qualitative analysis conveys insightful intuitions and observations on the
essence of effective scoring criteria.