Évaluateurs Auto-Formés
Self-Taught Evaluators
August 5, 2024
Auteurs: Tianlu Wang, Ilia Kulikov, Olga Golovneva, Ping Yu, Weizhe Yuan, Jane Dwivedi-Yu, Richard Yuanzhe Pang, Maryam Fazel-Zarandi, Jason Weston, Xian Li
cs.AI
Résumé
L'évaluation basée sur modèle est au cœur du développement réussi des modèles -- en tant que modèle de récompense pour l'entraînement, et en tant que remplacement de l'évaluation humaine. Pour entraîner de tels évaluateurs, l'approche standard consiste à collecter un grand nombre de jugements de préférence humaine sur les réponses des modèles, ce qui est coûteux et les données deviennent obsolètes à mesure que les modèles s'améliorent. Dans ce travail, nous présentons une approche visant à améliorer les évaluateurs sans annotations humaines, en utilisant uniquement des données d'entraînement synthétiques. Partant d'instructions non étiquetées, notre schéma d'auto-amélioration itératif génère des sorties de modèles contrastées et entraîne un LLM-comme-Juge pour produire des traces de raisonnement et des jugements finaux, répétant cet entraînement à chaque nouvelle itération en utilisant les prédictions améliorées. Sans aucune donnée de préférence étiquetée, notre Évaluateur Auto-Enseigné peut améliorer un LLM performant (Llama3-70B-Instruct) de 75,4 à 88,3 (88,7 avec un vote majoritaire) sur RewardBench. Cela surpasse les juges LLM couramment utilisés comme GPT-4 et correspond à la performance des meilleurs modèles de récompense entraînés avec des exemples étiquetés.
English
Model-based evaluation is at the heart of successful model development -- as
a reward model for training, and as a replacement for human evaluation. To
train such evaluators, the standard approach is to collect a large amount of
human preference judgments over model responses, which is costly and the data
becomes stale as models improve. In this work, we present an approach that aims
to im-prove evaluators without human annotations, using synthetic training data
only. Starting from unlabeled instructions, our iterative self-improvement
scheme generates contrasting model outputs and trains an LLM-as-a-Judge to
produce reasoning traces and final judgments, repeating this training at each
new iteration using the improved predictions. Without any labeled preference
data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct)
from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms
commonly used LLM judges such as GPT-4 and matches the performance of the
top-performing reward models trained with labeled examples.Summary
AI-Generated Summary