Valutatori Autodidatti
Self-Taught Evaluators
August 5, 2024
Autori: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI
Abstract
La valutazione basata su modelli è al centro dello sviluppo di modelli di successo, sia come modello di ricompensa per l'addestramento, sia come sostituto della valutazione umana. Per addestrare tali valutatori, l'approccio standard consiste nel raccogliere un gran numero di giudizi di preferenza umana sulle risposte del modello, un processo costoso i cui dati diventano obsoleti man mano che i modelli migliorano. In questo lavoro, presentiamo un approccio che mira a migliorare i valutatori senza annotazioni umane, utilizzando esclusivamente dati di addestramento sintetici. Partendo da istruzioni non etichettate, il nostro schema di auto-miglioramento iterativo genera output contrastanti del modello e addestra un LLM-as-a-Judge per produrre tracce di ragionamento e giudizi finali, ripetendo questo addestramento a ogni nuova iterazione utilizzando le previsioni migliorate. Senza alcun dato di preferenza etichettato, il nostro Self-Taught Evaluator è in grado di migliorare un LLM potente (Llama3-70B-Instruct) da 75.4 a 88.3 (88.7 con voto a maggioranza) su RewardBench. Questo supera i giudici LLM comunemente utilizzati come GPT-4 e raggiunge le prestazioni dei migliori modelli di ricompensa addestrati con esempi etichettati.
English
Model-based evaluation is at the heart of successful model development -- as
a reward model for training, and as a replacement for human evaluation. To
train such evaluators, the standard approach is to collect a large amount of
human preference judgments over model responses, which is costly and the data
becomes stale as models improve. In this work, we present an approach that aims
to im-prove evaluators without human annotations, using synthetic training data
only. Starting from unlabeled instructions, our iterative self-improvement
scheme generates contrasting model outputs and trains an LLM-as-a-Judge to
produce reasoning traces and final judgments, repeating this training at each
new iteration using the improved predictions. Without any labeled preference
data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct)
from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms
commonly used LLM judges such as GPT-4 and matches the performance of the
top-performing reward models trained with labeled examples.