WARM : Sur les avantages des modèles de récompense à moyenne pondérée
WARM: On the Benefits of Weight Averaged Reward Models
January 22, 2024
Auteurs: Alexandre Ramé, Nino Vieillard, Léonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, Johan Ferret
cs.AI
Résumé
L'alignement des grands modèles de langage (LLMs) avec les préférences humaines grâce à l'apprentissage par renforcement (RLHF) peut entraîner un détournement de récompense, où les LLMs exploitent les failles du modèle de récompense (RM) pour atteindre des récompenses apparemment élevées sans satisfaire les objectifs sous-jacents. Nous identifions deux défis principaux lors de la conception des RM pour atténuer ce détournement : les décalages de distribution pendant le processus de RL et les incohérences dans les préférences humaines. Comme solution, nous proposons les Modèles de Récompense à Poids Moyennés (WARM), qui consistent d'abord à affiner plusieurs RM, puis à les moyenniser dans l'espace des poids. Cette stratégie repose sur l'observation que les poids affinés restent linéairement connectés en mode lorsqu'ils partagent le même pré-entraînement. En moyennisant les poids, WARM améliore l'efficacité par rapport à l'assemblage traditionnel des prédictions, tout en renforçant la fiabilité face aux décalages de distribution et la robustesse aux incohérences de préférences. Nos expériences sur des tâches de résumé, utilisant les méthodes best-of-N et RL, montrent que WARM améliore la qualité globale et l'alignement des prédictions des LLMs ; par exemple, une politique RL affinée avec WARM obtient un taux de victoire de 79,4 % contre une politique RL affinée avec un seul RM.
English
Aligning large language models (LLMs) with human preferences through
reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit
failures in the reward model (RM) to achieve seemingly high rewards without
meeting the underlying objectives. We identify two primary challenges when
designing RMs to mitigate reward hacking: distribution shifts during the RL
process and inconsistencies in human preferences. As a solution, we propose
Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then
averaging them in the weight space. This strategy follows the observation that
fine-tuned weights remain linearly mode connected when sharing the same
pre-training. By averaging weights, WARM improves efficiency compared to the
traditional ensembling of predictions, while improving reliability under
distribution shifts and robustness to preference inconsistencies. Our
experiments on summarization tasks, using best-of-N and RL methods, shows that
WARM improves the overall quality and alignment of LLM predictions; for
example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy
RL fine-tuned with a single RM.