Evaluadores Autodidactas
Self-Taught Evaluators
August 5, 2024
Autores: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI
Resumen
La evaluación basada en modelos es fundamental para el desarrollo exitoso de modelos, tanto como modelo de recompensa para el entrenamiento, como reemplazo de la evaluación humana. Para entrenar dichos evaluadores, el enfoque estándar es recopilar una gran cantidad de juicios de preferencia humana sobre las respuestas del modelo, lo cual es costoso y los datos se vuelven obsoletos a medida que los modelos mejoran. En este trabajo, presentamos un enfoque que tiene como objetivo mejorar los evaluadores sin anotaciones humanas, utilizando solo datos de entrenamiento sintéticos. Partiendo de instrucciones no etiquetadas, nuestro esquema iterativo de auto-mejora genera salidas de modelo contrastantes y entrena a un LLM-como-Juez para producir trazas de razonamiento y juicios finales, repitiendo este entrenamiento en cada nueva iteración utilizando las predicciones mejoradas. Sin ningún dato de preferencia etiquetado, nuestro Evaluador Autodidacta puede mejorar un fuerte LLM (Llama3-70B-Instruct) de 75.4 a 88.3 (88.7 con voto mayoritario) en RewardBench. Esto supera a jueces LLM comúnmente utilizados como GPT-4 y coincide con el rendimiento de los modelos de recompensa de mejor rendimiento entrenados con ejemplos etiquetados.
English
Model-based evaluation is at the heart of successful model development -- as
a reward model for training, and as a replacement for human evaluation. To
train such evaluators, the standard approach is to collect a large amount of
human preference judgments over model responses, which is costly and the data
becomes stale as models improve. In this work, we present an approach that aims
to im-prove evaluators without human annotations, using synthetic training data
only. Starting from unlabeled instructions, our iterative self-improvement
scheme generates contrasting model outputs and trains an LLM-as-a-Judge to
produce reasoning traces and final judgments, repeating this training at each
new iteration using the improved predictions. Without any labeled preference
data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct)
from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms
commonly used LLM judges such as GPT-4 and matches the performance of the
top-performing reward models trained with labeled examples.Summary
AI-Generated Summary