Zelfgeleerde Evaluatoren
Self-Taught Evaluators
August 5, 2024
Auteurs: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI
Samenvatting
Modelgebaseerde evaluatie staat centraal in succesvolle modelontwikkeling – zowel als beloningsmodel voor training, als vervanging van menselijke evaluatie. Om dergelijke evaluatoren te trainen, is de standaardaanpak het verzamelen van een grote hoeveelheid menselijke voorkeursbeoordelingen over modelreacties, wat kostbaar is en de data veroudert naarmate modellen verbeteren. In dit werk presenteren we een aanpak die beoogt evaluatoren te verbeteren zonder menselijke annotaties, waarbij alleen synthetische trainingsdata wordt gebruikt. Uitgaande van ongelabelde instructies, genereert ons iteratieve zelfverbeteringsschema contrasterende modeluitvoer en traint een LLM-as-a-Judge om redeneersporen en uiteindelijke beoordelingen te produceren, waarbij deze training bij elke nieuwe iteratie wordt herhaald met de verbeterde voorspellingen. Zonder gelabelde voorkeursdata kan onze Self-Taught Evaluator een sterk LLM (Llama3-70B-Instruct) verbeteren van 75.4 naar 88.3 (88.7 met meerderheidsstemming) op RewardBench. Dit overtreft veelgebruikte LLM-beoordelaars zoals GPT-4 en evenaart de prestaties van de best presterende beloningsmodellen die zijn getraind met gelabelde voorbeelden.
English
Model-based evaluation is at the heart of successful model development -- as
a reward model for training, and as a replacement for human evaluation. To
train such evaluators, the standard approach is to collect a large amount of
human preference judgments over model responses, which is costly and the data
becomes stale as models improve. In this work, we present an approach that aims
to im-prove evaluators without human annotations, using synthetic training data
only. Starting from unlabeled instructions, our iterative self-improvement
scheme generates contrasting model outputs and trains an LLM-as-a-Judge to
produce reasoning traces and final judgments, repeating this training at each
new iteration using the improved predictions. Without any labeled preference
data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct)
from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms
commonly used LLM judges such as GPT-4 and matches the performance of the
top-performing reward models trained with labeled examples.