ChatPaper.aiChatPaper

Selbstlernende Evaluatoren

Self-Taught Evaluators

August 5, 2024
Autoren: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI

Zusammenfassung

Die modellbasierte Evaluation steht im Mittelpunkt der erfolgreichen Modellentwicklung - als Belohnungsmodell für das Training und als Ersatz für die menschliche Bewertung. Um solche Evaluatoren zu trainieren, ist der Standardansatz, eine große Menge menschlicher Präferenzurteile über Modellantworten zu sammeln, was kostspielig ist und die Daten veralten, während sich die Modelle verbessern. In dieser Arbeit stellen wir einen Ansatz vor, der darauf abzielt, Evaluatoren ohne menschliche Annotationen zu verbessern, indem nur synthetische Trainingsdaten verwendet werden. Ausgehend von unbeschrifteten Anweisungen generiert unser iteratives Selbstverbesserungsschema kontrastierende Modellausgaben und trainiert einen LLM-als-Richter, um Begründungsspuren und endgültige Urteile zu erzeugen. Dieses Training wird in jeder neuen Iteration unter Verwendung der verbesserten Vorhersagen wiederholt. Ohne jegliche beschrifteten Präferenzdaten kann unser selbstlernender Evaluator einen starken LLM (Llama3-70B-Instruct) von 75,4 auf 88,3 verbessern (88,7 mit Mehrheitsentscheidung) auf RewardBench. Dies übertrifft häufig verwendete LLM-Richter wie GPT-4 und entspricht der Leistung der am besten abschneidenden Belohnungsmodelle, die mit beschrifteten Beispielen trainiert wurden.
English
Model-based evaluation is at the heart of successful model development -- as a reward model for training, and as a replacement for human evaluation. To train such evaluators, the standard approach is to collect a large amount of human preference judgments over model responses, which is costly and the data becomes stale as models improve. In this work, we present an approach that aims to im-prove evaluators without human annotations, using synthetic training data only. Starting from unlabeled instructions, our iterative self-improvement scheme generates contrasting model outputs and trains an LLM-as-a-Judge to produce reasoning traces and final judgments, repeating this training at each new iteration using the improved predictions. Without any labeled preference data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms commonly used LLM judges such as GPT-4 and matches the performance of the top-performing reward models trained with labeled examples.

Summary

AI-Generated Summary

PDF304November 28, 2024