Zelfgeleerde Evaluatoren

Samenvatting

Modelgebaseerde evaluatie staat centraal in succesvolle modelontwikkeling – zowel als beloningsmodel voor training, als vervanging van menselijke evaluatie. Om dergelijke evaluatoren te trainen, is de standaardaanpak het verzamelen van een grote hoeveelheid menselijke voorkeursbeoordelingen over modelreacties, wat kostbaar is en de data veroudert naarmate modellen verbeteren. In dit werk presenteren we een aanpak die beoogt evaluatoren te verbeteren zonder menselijke annotaties, waarbij alleen synthetische trainingsdata wordt gebruikt. Uitgaande van ongelabelde instructies, genereert ons iteratieve zelfverbeteringsschema contrasterende modeluitvoer en traint een LLM-as-a-Judge om redeneersporen en uiteindelijke beoordelingen te produceren, waarbij deze training bij elke nieuwe iteratie wordt herhaald met de verbeterde voorspellingen. Zonder gelabelde voorkeursdata kan onze Self-Taught Evaluator een sterk LLM (Llama3-70B-Instruct) verbeteren van 75.4 naar 88.3 (88.7 met meerderheidsstemming) op RewardBench. Dit overtreft veelgebruikte LLM-beoordelaars zoals GPT-4 en evenaart de prestaties van de best presterende beloningsmodellen die zijn getraind met gelabelde voorbeelden.

English

Model-based evaluation is at the heart of successful model development -- as a reward model for training, and as a replacement for human evaluation. To train such evaluators, the standard approach is to collect a large amount of human preference judgments over model responses, which is costly and the data becomes stale as models improve. In this work, we present an approach that aims to im-prove evaluators without human annotations, using synthetic training data only. Starting from unlabeled instructions, our iterative self-improvement scheme generates contrasting model outputs and trains an LLM-as-a-Judge to produce reasoning traces and final judgments, repeating this training at each new iteration using the improved predictions. Without any labeled preference data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms commonly used LLM judges such as GPT-4 and matches the performance of the top-performing reward models trained with labeled examples.

Zelfgeleerde Evaluatoren

Self-Taught Evaluators

Samenvatting

Support