Het transformeren en combineren van beloningen voor het uitlijnen van grote taalmodellen

Samenvatting

Een gangbare aanpak voor het afstemmen van taalmodellen op menselijke voorkeuren is om eerst een beloningsmodel te leren uit voorkeursdata, en vervolgens dit beloningsmodel te gebruiken om het taalmodel bij te werken. We bestuderen twee nauw verwante problemen die bij deze aanpak ontstaan. Ten eerste behoudt elke monotone transformatie van het beloningsmodel de voorkeursrangschikking; is er een keuze die "beter" is dan andere? Ten tweede willen we taalmodellen vaak afstemmen op meerdere eigenschappen: hoe moeten we meerdere beloningsmodellen combineren? Met behulp van een probabilistische interpretatie van het afstemmingsproces identificeren we een natuurlijke keuze voor transformatie voor (het veelvoorkomende geval van) beloningen die zijn geleerd uit Bradley-Terry voorkeursmodellen. Deze afgeleide transformatie heeft twee belangrijke eigenschappen. Ten eerste benadrukt het het verbeteren van slecht presterende uitvoer, in plaats van uitvoer die al goed scoort. Dit vermindert zowel onderfitting (waarbij sommige prompts niet worden verbeterd) als beloningsmanipulatie (waarbij het model leert om misspecificatie van het beloningsmodel uit te buiten). Ten tweede maakt het een principiële aggregatie van beloningen mogelijk door optelling te koppelen aan logische conjunctie: de som van getransformeerde beloningen komt overeen met de waarschijnlijkheid dat de uitvoer "goed" is in alle gemeten eigenschappen, in een zin die we precies maken. Experimenten waarbij taalmodellen worden afgestemd om zowel behulpzaam als onschadelijk te zijn met behulp van RLHF tonen aanzienlijke verbeteringen ten opzichte van de baseline (niet-getransformeerde) aanpak.

English

A common approach for aligning language models to human preferences is to first learn a reward model from preference data, and then use this reward model to update the language model. We study two closely related problems that arise in this approach. First, any monotone transformation of the reward model preserves preference ranking; is there a choice that is ``better'' than others? Second, we often wish to align language models to multiple properties: how should we combine multiple reward models? Using a probabilistic interpretation of the alignment procedure, we identify a natural choice for transformation for (the common case of) rewards learned from Bradley-Terry preference models. This derived transformation has two important properties. First, it emphasizes improving poorly-performing outputs, rather than outputs that already score well. This mitigates both underfitting (where some prompts are not improved) and reward hacking (where the model learns to exploit misspecification of the reward model). Second, it enables principled aggregation of rewards by linking summation to logical conjunction: the sum of transformed rewards corresponds to the probability that the output is ``good'' in all measured properties, in a sense we make precise. Experiments aligning language models to be both helpful and harmless using RLHF show substantial improvements over the baseline (non-transformed) approach.

Het transformeren en combineren van beloningen voor het uitlijnen van grote taalmodellen

Transforming and Combining Rewards for Aligning Large Language Models

Samenvatting

Support