Alignement des grands modèles de langage par le biais de retours synthétiques
Aligning Large Language Models through Synthetic Feedback
May 23, 2023
Auteurs: Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo
cs.AI
Résumé
L'alignement des grands modèles de langage (LLMs) sur les valeurs humaines est devenu de plus en plus important, car il permet un pilotage sophistiqué des LLMs, par exemple en les faisant suivre des instructions données tout en réduisant leur toxicité. Cependant, cela nécessite une quantité importante de démonstrations et de retours humains. Récemment, des modèles open-source ont tenté de reproduire le processus d'apprentissage de l'alignement en distillant des données provenant de LLMs déjà alignés comme InstructGPT ou ChatGPT. Bien que ce processus réduise les efforts humains, la construction de ces ensembles de données dépend fortement des modèles enseignants. Dans ce travail, nous proposons un cadre novateur pour l'apprentissage de l'alignement nécessitant presque aucun effort humain et aucune dépendance envers des LLMs pré-alignés. Tout d'abord, nous effectuons une modélisation de la récompense (RM) avec des retours synthétiques en comparant les réponses de LLMs standards de différentes tailles et prompts. Ensuite, nous utilisons la RM pour simuler des démonstrations de haute qualité afin d'entraîner une politique supervisée et pour optimiser davantage le modèle avec l'apprentissage par renforcement. Notre modèle résultant, Aligned Language Model with Synthetic Training dataset (ALMoST), surpasse les modèles open-source, y compris Alpaca, Dolly et OpenAssistant, qui sont entraînés sur les sorties d'InstructGPT ou sur des instructions annotées par des humains. Notre modèle de 7 milliards de paramètres surpasse les modèles de 12 à 13 milliards dans les tests A/B utilisant GPT-4 comme juge, avec un taux de victoire moyen d'environ 75 %.
English
Aligning large language models (LLMs) to human values has become increasingly
important as it enables sophisticated steering of LLMs, e.g., making them
follow given instructions while keeping them less toxic. However, it requires a
significant amount of human demonstrations and feedback. Recently, open-sourced
models have attempted to replicate the alignment learning process by distilling
data from already aligned LLMs like InstructGPT or ChatGPT. While this process
reduces human efforts, constructing these datasets has a heavy dependency on
the teacher models. In this work, we propose a novel framework for alignment
learning with almost no human labor and no dependency on pre-aligned LLMs.
First, we perform reward modeling (RM) with synthetic feedback by contrasting
responses from vanilla LLMs with various sizes and prompts. Then, we use the RM
for simulating high-quality demonstrations to train a supervised policy and for
further optimizing the model with reinforcement learning. Our resulting model,
Aligned Language Model with Synthetic Training dataset (ALMoST), outperforms
open-sourced models, including Alpaca, Dolly, and OpenAssistant, which are
trained on the outputs of InstructGPT or human-annotated instructions. Our
7B-sized model outperforms the 12-13B models in the A/B tests using GPT-4 as
the judge with about 75% winning rate on average.