Un long chemin à parcourir : enquête sur les corrélations de longueur dans l'apprentissage par renforcement à partir de feedback humain

papers.abstract

Des succès notables ont été rapportés grâce à l'apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les grands modèles de langage. Les ensembles de données de préférences open-source et les modèles de récompense ont permis une expérimentation plus large au-delà des contextes de discussion génériques, en particulier pour rendre les systèmes plus "utiles" dans des tâches telles que la réponse à des questions sur le web, la synthèse et les dialogues multi-tours. Lors de l'optimisation pour l'utilité, il a été constamment observé que le RLHF pousse les modèles à produire des sorties plus longues. Cet article démontre que l'optimisation pour la longueur des réponses est un facteur significatif derrière les améliorations rapportées du RLHF dans ces contextes. Tout d'abord, nous étudions la relation entre la récompense et la longueur pour les modèles de récompense entraînés sur trois ensembles de données de préférences open-source pour l'utilité. Ici, la longueur est fortement corrélée à la récompense, et les améliorations du score de récompense sont en grande partie dues à un décalage de la distribution des longueurs de sortie. Nous explorons ensuite des interventions pendant l'apprentissage par renforcement et l'apprentissage des modèles de récompense pour voir si nous pouvons obtenir les mêmes améliorations en aval que le RLHF sans augmenter la longueur. Bien que nos interventions atténuent les augmentations de longueur, elles ne sont pas uniformément efficaces dans tous les contextes. De plus, nous constatons que même l'exécution du RLHF avec une récompense basée uniquement sur la longueur peut reproduire la plupart des améliorations en aval par rapport au modèle de politique initial, montrant que les modèles de récompense dans ces contextes ont encore un long chemin à parcourir.

English

Great successes have been reported using Reinforcement Learning from Human Feedback (RLHF) to align large language models. Open-source preference datasets and reward models have enabled wider experimentation beyond generic chat settings, particularly to make systems more "helpful" for tasks like web question answering, summarization, and multi-turn dialogue. When optimizing for helpfulness, RLHF has been consistently observed to drive models to produce longer outputs. This paper demonstrates that optimizing for response length is a significant factor behind RLHF's reported improvements in these settings. First, we study the relationship between reward and length for reward models trained on three open-source preference datasets for helpfulness. Here, length correlates strongly with reward, and improvements in reward score are driven in large part by shifting the distribution over output lengths. We then explore interventions during both RL and reward model learning to see if we can achieve the same downstream improvements as RLHF without increasing length. While our interventions mitigate length increases, they aren't uniformly effective across settings. Furthermore, we find that even running RLHF with a reward based solely on length can reproduce most of the downstream improvements over the initial policy model, showing that reward models in these settings have a long way to go.

Un long chemin à parcourir : enquête sur les corrélations de longueur dans l'apprentissage par renforcement à partir de feedback humain

A Long Way to Go: Investigating Length Correlations in RLHF

papers.abstract

Support