Een Lange Weg te Gaan: Onderzoek naar Lengtecorrelaties in RLHF

Samenvatting

Er zijn grote successen gerapporteerd bij het gebruik van Reinforcement Learning from Human Feedback (RLHF) om grote taalmodellen af te stemmen. Open-source voorkeursdatasets en beloningsmodellen hebben bredere experimenten mogelijk gemaakt buiten generieke chatomgevingen, met name om systemen "behulpzamer" te maken voor taken zoals webvraagbeantwoording, samenvatting en meerzijdige dialogen. Bij het optimaliseren voor behulpzaamheid is consistent waargenomen dat RLHF modellen aanzet tot het produceren van langere uitvoer. Dit artikel toont aan dat het optimaliseren voor responslengte een belangrijke factor is achter de gerapporteerde verbeteringen van RLHF in deze contexten. Eerst onderzoeken we de relatie tussen beloning en lengte voor beloningsmodellen die getraind zijn op drie open-source voorkeursdatasets voor behulpzaamheid. Hier correleert lengte sterk met beloning, en verbeteringen in beloningsscore worden grotendeels gedreven door een verschuiving in de verdeling van uitvoerlengtes. Vervolgens verkennen we interventies tijdens zowel RL als het leren van beloningsmodellen om te zien of we dezelfde downstreamverbeteringen als RLHF kunnen bereiken zonder de lengte te vergroten. Hoewel onze interventies lengtetoename beperken, zijn ze niet uniform effectief in alle contexten. Bovendien ontdekken we dat zelfs het uitvoeren van RLHF met een beloning die uitsluitend op lengte is gebaseerd, het grootste deel van de downstreamverbeteringen ten opzichte van het initiële beleidsmodel kan reproduceren, wat aantoont dat beloningsmodellen in deze contexten nog een lange weg te gaan hebben.

English

Great successes have been reported using Reinforcement Learning from Human Feedback (RLHF) to align large language models. Open-source preference datasets and reward models have enabled wider experimentation beyond generic chat settings, particularly to make systems more "helpful" for tasks like web question answering, summarization, and multi-turn dialogue. When optimizing for helpfulness, RLHF has been consistently observed to drive models to produce longer outputs. This paper demonstrates that optimizing for response length is a significant factor behind RLHF's reported improvements in these settings. First, we study the relationship between reward and length for reward models trained on three open-source preference datasets for helpfulness. Here, length correlates strongly with reward, and improvements in reward score are driven in large part by shifting the distribution over output lengths. We then explore interventions during both RL and reward model learning to see if we can achieve the same downstream improvements as RLHF without increasing length. While our interventions mitigate length increases, they aren't uniformly effective across settings. Furthermore, we find that even running RLHF with a reward based solely on length can reproduce most of the downstream improvements over the initial policy model, showing that reward models in these settings have a long way to go.

Een Lange Weg te Gaan: Onderzoek naar Lengtecorrelaties in RLHF

A Long Way to Go: Investigating Length Correlations in RLHF

Samenvatting

Support