Een Lange Weg te Gaan: Onderzoek naar Lengtecorrelaties in RLHF
A Long Way to Go: Investigating Length Correlations in RLHF
October 5, 2023
Auteurs: Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett
cs.AI
Samenvatting
Er zijn grote successen gerapporteerd bij het gebruik van Reinforcement Learning from Human Feedback (RLHF) om grote taalmodellen af te stemmen. Open-source voorkeursdatasets en beloningsmodellen hebben bredere experimenten mogelijk gemaakt buiten generieke chatomgevingen, met name om systemen "behulpzamer" te maken voor taken zoals webvraagbeantwoording, samenvatting en meerzijdige dialogen. Bij het optimaliseren voor behulpzaamheid is consistent waargenomen dat RLHF modellen aanzet tot het produceren van langere uitvoer. Dit artikel toont aan dat het optimaliseren voor responslengte een belangrijke factor is achter de gerapporteerde verbeteringen van RLHF in deze contexten. Eerst onderzoeken we de relatie tussen beloning en lengte voor beloningsmodellen die getraind zijn op drie open-source voorkeursdatasets voor behulpzaamheid. Hier correleert lengte sterk met beloning, en verbeteringen in beloningsscore worden grotendeels gedreven door een verschuiving in de verdeling van uitvoerlengtes. Vervolgens verkennen we interventies tijdens zowel RL als het leren van beloningsmodellen om te zien of we dezelfde downstreamverbeteringen als RLHF kunnen bereiken zonder de lengte te vergroten. Hoewel onze interventies lengtetoename beperken, zijn ze niet uniform effectief in alle contexten. Bovendien ontdekken we dat zelfs het uitvoeren van RLHF met een beloning die uitsluitend op lengte is gebaseerd, het grootste deel van de downstreamverbeteringen ten opzichte van het initiële beleidsmodel kan reproduceren, wat aantoont dat beloningsmodellen in deze contexten nog een lange weg te gaan hebben.
English
Great successes have been reported using Reinforcement Learning from Human
Feedback (RLHF) to align large language models. Open-source preference datasets
and reward models have enabled wider experimentation beyond generic chat
settings, particularly to make systems more "helpful" for tasks like web
question answering, summarization, and multi-turn dialogue. When optimizing for
helpfulness, RLHF has been consistently observed to drive models to produce
longer outputs. This paper demonstrates that optimizing for response length is
a significant factor behind RLHF's reported improvements in these settings.
First, we study the relationship between reward and length for reward models
trained on three open-source preference datasets for helpfulness. Here, length
correlates strongly with reward, and improvements in reward score are driven in
large part by shifting the distribution over output lengths. We then explore
interventions during both RL and reward model learning to see if we can achieve
the same downstream improvements as RLHF without increasing length. While our
interventions mitigate length increases, they aren't uniformly effective across
settings. Furthermore, we find that even running RLHF with a reward based
solely on length can reproduce most of the downstream improvements over the
initial policy model, showing that reward models in these settings have a long
way to go.