Avaliadores Autodidatas
Self-Taught Evaluators
August 5, 2024
Autores: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI
Resumo
A avaliação baseada em modelo está no cerne do desenvolvimento bem-sucedido de modelos - como um modelo de recompensa para treinamento e como substituto da avaliação humana. Para treinar tais avaliadores, a abordagem padrão é coletar uma grande quantidade de julgamentos de preferência humana sobre respostas do modelo, o que é custoso e os dados se tornam obsoletos à medida que os modelos melhoram. Neste trabalho, apresentamos uma abordagem que visa melhorar os avaliadores sem anotações humanas, utilizando apenas dados de treinamento sintéticos. Partindo de instruções não rotuladas, nosso esquema iterativo de auto aprimoramento gera saídas de modelo contrastantes e treina um LLM-como-Juíz para produzir traços de raciocínio e julgamentos finais, repetindo este treinamento a cada nova iteração usando as previsões aprimoradas. Sem nenhum dado de preferência rotulado, nosso Avaliador Autodidata pode melhorar um forte LLM (Llama3-70B-Instruct) de 75,4 para 88,3 (88,7 com voto majoritário) no RewardBench. Isso supera juízes LLM comumente usados, como o GPT-4, e corresponde ao desempenho dos modelos de recompensa de melhor desempenho treinados com exemplos rotulados.
English
Model-based evaluation is at the heart of successful model development -- as
a reward model for training, and as a replacement for human evaluation. To
train such evaluators, the standard approach is to collect a large amount of
human preference judgments over model responses, which is costly and the data
becomes stale as models improve. In this work, we present an approach that aims
to im-prove evaluators without human annotations, using synthetic training data
only. Starting from unlabeled instructions, our iterative self-improvement
scheme generates contrasting model outputs and trains an LLM-as-a-Judge to
produce reasoning traces and final judgments, repeating this training at each
new iteration using the improved predictions. Without any labeled preference
data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct)
from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms
commonly used LLM judges such as GPT-4 and matches the performance of the
top-performing reward models trained with labeled examples.Summary
AI-Generated Summary