Un long chemin à parcourir : enquête sur les corrélations de longueur dans l'apprentissage par renforcement à partir de feedback humain
A Long Way to Go: Investigating Length Correlations in RLHF
October 5, 2023
papers.authors: Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett
cs.AI
papers.abstract
Des succès notables ont été rapportés grâce à l'apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les grands modèles de langage. Les ensembles de données de préférences open-source et les modèles de récompense ont permis une expérimentation plus large au-delà des contextes de discussion génériques, en particulier pour rendre les systèmes plus "utiles" dans des tâches telles que la réponse à des questions sur le web, la synthèse et les dialogues multi-tours. Lors de l'optimisation pour l'utilité, il a été constamment observé que le RLHF pousse les modèles à produire des sorties plus longues. Cet article démontre que l'optimisation pour la longueur des réponses est un facteur significatif derrière les améliorations rapportées du RLHF dans ces contextes. Tout d'abord, nous étudions la relation entre la récompense et la longueur pour les modèles de récompense entraînés sur trois ensembles de données de préférences open-source pour l'utilité. Ici, la longueur est fortement corrélée à la récompense, et les améliorations du score de récompense sont en grande partie dues à un décalage de la distribution des longueurs de sortie. Nous explorons ensuite des interventions pendant l'apprentissage par renforcement et l'apprentissage des modèles de récompense pour voir si nous pouvons obtenir les mêmes améliorations en aval que le RLHF sans augmenter la longueur. Bien que nos interventions atténuent les augmentations de longueur, elles ne sont pas uniformément efficaces dans tous les contextes. De plus, nous constatons que même l'exécution du RLHF avec une récompense basée uniquement sur la longueur peut reproduire la plupart des améliorations en aval par rapport au modèle de politique initial, montrant que les modèles de récompense dans ces contextes ont encore un long chemin à parcourir.
English
Great successes have been reported using Reinforcement Learning from Human
Feedback (RLHF) to align large language models. Open-source preference datasets
and reward models have enabled wider experimentation beyond generic chat
settings, particularly to make systems more "helpful" for tasks like web
question answering, summarization, and multi-turn dialogue. When optimizing for
helpfulness, RLHF has been consistently observed to drive models to produce
longer outputs. This paper demonstrates that optimizing for response length is
a significant factor behind RLHF's reported improvements in these settings.
First, we study the relationship between reward and length for reward models
trained on three open-source preference datasets for helpfulness. Here, length
correlates strongly with reward, and improvements in reward score are driven in
large part by shifting the distribution over output lengths. We then explore
interventions during both RL and reward model learning to see if we can achieve
the same downstream improvements as RLHF without increasing length. While our
interventions mitigate length increases, they aren't uniformly effective across
settings. Furthermore, we find that even running RLHF with a reward based
solely on length can reproduce most of the downstream improvements over the
initial policy model, showing that reward models in these settings have a long
way to go.