ChatPaper.aiChatPaper

Valutatori Autodidatti

Self-Taught Evaluators

August 5, 2024
Autori: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI

Abstract

La valutazione basata su modelli è al centro dello sviluppo di modelli di successo, sia come modello di ricompensa per l'addestramento, sia come sostituto della valutazione umana. Per addestrare tali valutatori, l'approccio standard consiste nel raccogliere un gran numero di giudizi di preferenza umana sulle risposte del modello, un processo costoso i cui dati diventano obsoleti man mano che i modelli migliorano. In questo lavoro, presentiamo un approccio che mira a migliorare i valutatori senza annotazioni umane, utilizzando esclusivamente dati di addestramento sintetici. Partendo da istruzioni non etichettate, il nostro schema di auto-miglioramento iterativo genera output contrastanti del modello e addestra un LLM-as-a-Judge per produrre tracce di ragionamento e giudizi finali, ripetendo questo addestramento a ogni nuova iterazione utilizzando le previsioni migliorate. Senza alcun dato di preferenza etichettato, il nostro Self-Taught Evaluator è in grado di migliorare un LLM potente (Llama3-70B-Instruct) da 75.4 a 88.3 (88.7 con voto a maggioranza) su RewardBench. Questo supera i giudici LLM comunemente utilizzati come GPT-4 e raggiunge le prestazioni dei migliori modelli di ricompensa addestrati con esempi etichettati.
English
Model-based evaluation is at the heart of successful model development -- as a reward model for training, and as a replacement for human evaluation. To train such evaluators, the standard approach is to collect a large amount of human preference judgments over model responses, which is costly and the data becomes stale as models improve. In this work, we present an approach that aims to im-prove evaluators without human annotations, using synthetic training data only. Starting from unlabeled instructions, our iterative self-improvement scheme generates contrasting model outputs and trains an LLM-as-a-Judge to produce reasoning traces and final judgments, repeating this training at each new iteration using the improved predictions. Without any labeled preference data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms commonly used LLM judges such as GPT-4 and matches the performance of the top-performing reward models trained with labeled examples.
PDF304November 28, 2024