Самообучаемые оценщики
Self-Taught Evaluators
August 5, 2024
Авторы: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI
Аннотация
Оценка на основе модели является основой успешной разработки моделей - как модель вознаграждения для обучения, так и в качестве замены человеческой оценки. Для обучения таких оценщиков стандартным подходом является сбор большого количества человеческих предпочтительных суждений по откликам модели, что является затратным, и данные устаревают по мере улучшения моделей. В данной работе мы представляем подход, который направлен на улучшение оценщиков без человеческих аннотаций, используя только синтетические обучающие данные. Начиная с неразмеченных инструкций, наш итеративный самоулучшающийся схема генерирует контрастные выходы модели и обучает LLM-как-Судью для создания следов рассуждений и окончательных суждений, повторяя это обучение на каждой новой итерации с использованием улучшенных прогнозов. Без каких-либо размеченных данных о предпочтениях наш Самообучающийся Оценщик может улучшить сильный LLM (Llama3-70B-Instruct) с 75,4 до 88,3 (88,7 с преобладающим голосом) на RewardBench. Этот результат превосходит широко используемых судей LLM, таких как GPT-4, и соответствует производительности лучших моделей вознаграждения, обученных с помеченными примерами.
English
Model-based evaluation is at the heart of successful model development -- as
a reward model for training, and as a replacement for human evaluation. To
train such evaluators, the standard approach is to collect a large amount of
human preference judgments over model responses, which is costly and the data
becomes stale as models improve. In this work, we present an approach that aims
to im-prove evaluators without human annotations, using synthetic training data
only. Starting from unlabeled instructions, our iterative self-improvement
scheme generates contrasting model outputs and trains an LLM-as-a-Judge to
produce reasoning traces and final judgments, repeating this training at each
new iteration using the improved predictions. Without any labeled preference
data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct)
from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms
commonly used LLM judges such as GPT-4 and matches the performance of the
top-performing reward models trained with labeled examples.Summary
AI-Generated Summary