Apprenez Votre Modèle de Référence pour un Alignement Réellement Efficace
Learn Your Reference Model for Real Good Alignment
April 15, 2024
Auteurs: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI
Résumé
La complexité du problème d'alignement découle du fait que les méthodes existantes sont instables. Les chercheurs inventent continuellement diverses astuces pour pallier cette lacune. Par exemple, dans la technique fondamentale de Reinforcement Learning From Human Feedback (RLHF) pour l'alignement des modèles de langage, en plus de la maximisation de la récompense, la divergence de Kullback-Leibler entre la politique entraînable et la politique SFT est minimisée. Cette addition empêche le modèle de sur-apprendre le modèle de récompense (RM) et de générer des textes hors du domaine du RM. La méthode Direct Preference Optimization (DPO) reformule la tâche d'optimisation de RLHF et élimine le modèle de récompense tout en maintenant tacitement l'exigence que la politique reste proche de la politique SFT. Dans notre article, nous soutenons que cette limitation implicite dans la méthode DPO conduit à des résultats sous-optimaux. Nous proposons une nouvelle méthode appelée Trust Region DPO (TR-DPO), qui met à jour la politique de référence pendant l'entraînement. Avec une telle mise à jour simple, nous démontrons l'efficacité de TR-DPO par rapport à DPO sur les ensembles de données Anthropic HH et TLDR. Nous montrons que TR-DPO surpasse DPO jusqu'à 19 %, mesuré par évaluation automatique avec GPT-4. La nouvelle approche d'alignement que nous proposons nous permet d'améliorer la qualité des modèles sur plusieurs paramètres à la fois, tels que la cohérence, l'exactitude, le niveau de détail, l'utilité et l'innocuité.
English
The complexity of the alignment problem stems from the fact that existing
methods are unstable. Researchers continuously invent various tricks to address
this shortcoming. For instance, in the fundamental Reinforcement Learning From
Human Feedback (RLHF) technique of Language Model alignment, in addition to
reward maximization, the Kullback-Leibler divergence between the trainable
policy and the SFT policy is minimized. This addition prevents the model from
being overfitted to the Reward Model (RM) and generating texts that are
out-of-domain for the RM. The Direct Preference Optimization (DPO) method
reformulates the optimization task of RLHF and eliminates the Reward Model
while tacitly maintaining the requirement for the policy to be close to the SFT
policy. In our paper, we argue that this implicit limitation in the DPO method
leads to sub-optimal results. We propose a new method called Trust Region DPO
(TR-DPO), which updates the reference policy during training. With such a
straightforward update, we demonstrate the effectiveness of TR-DPO against DPO
on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by
up to 19%, measured by automatic evaluation with GPT-4. The new alignment
approach that we propose allows us to improve the quality of models across
several parameters at once, such as coherence, correctness, level of detail,
helpfulness, and harmlessness.Summary
AI-Generated Summary