Kalibreren van op LLM gebaseerde evaluator

Samenvatting

Recente vooruitgang in grote taalmodellen (LLMs) op het gebied van taalmodellering en opkomende capaciteiten maken hen een veelbelovende referentievrije beoordelaar van de kwaliteit van natuurlijke taalgeneratie, en een competent alternatief voor menselijke evaluatie. Echter, belemmerd door de gesloten broncode of de hoge rekenkundige eisen om te hosten en af te stemmen, is er een gebrek aan praktijk om een kant-en-klare LLM-gebaseerde beoordelaar verder te kalibreren voor betere afstemming op menselijke voorkeuren. In dit werk stellen we AutoCalibrate voor, een meerfasige, gradiëntvrije aanpak om een LLM-gebaseerde beoordelaar automatisch te kalibreren en af te stemmen op menselijke voorkeuren. In plaats van expliciet menselijke voorkeuren te modelleren, omvatten we deze eerst impliciet binnen een set menselijke labels. Vervolgens wordt een initiële set beoordelingscriteria opgesteld door het taalmodel zelf, waarbij gebruik wordt gemaakt van in-context leren op verschillende few-shot voorbeelden. Om deze set criteria verder te kalibreren, selecteren we de beste presteerders en herformuleren we deze met zelfverfijning. Onze experimenten op meerdere datasets voor tekstkwaliteitsevaluatie tonen een significante verbetering in correlatie met expertbeoordeling door kalibratie. Onze uitgebreide kwalitatieve analyse geeft inzichtelijke intuïties en observaties over de essentie van effectieve beoordelingscriteria.

English

Recent advancements in large language models (LLMs) on language modeling and emergent capabilities make them a promising reference-free evaluator of natural language generation quality, and a competent alternative to human evaluation. However, hindered by the closed-source or high computational demand to host and tune, there is a lack of practice to further calibrate an off-the-shelf LLM-based evaluator towards better human alignment. In this work, we propose AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate and align an LLM-based evaluator toward human preference. Instead of explicitly modeling human preferences, we first implicitly encompass them within a set of human labels. Then, an initial set of scoring criteria is drafted by the language model itself, leveraging in-context learning on different few-shot examples. To further calibrate this set of criteria, we select the best performers and re-draft them with self-refinement. Our experiments on multiple text quality evaluation datasets illustrate a significant improvement in correlation with expert evaluation through calibration. Our comprehensive qualitative analysis conveys insightful intuitions and observations on the essence of effective scoring criteria.

Kalibreren van op LLM gebaseerde evaluator

Calibrating LLM-Based Evaluator

Samenvatting

Support