Het transformeren en combineren van beloningen voor het uitlijnen van grote taalmodellen
Transforming and Combining Rewards for Aligning Large Language Models
February 1, 2024
Auteurs: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI
Samenvatting
Een gangbare aanpak voor het afstemmen van taalmodellen op menselijke voorkeuren is om eerst een beloningsmodel te leren uit voorkeursdata, en vervolgens dit beloningsmodel te gebruiken om het taalmodel bij te werken. We bestuderen twee nauw verwante problemen die bij deze aanpak ontstaan. Ten eerste behoudt elke monotone transformatie van het beloningsmodel de voorkeursrangschikking; is er een keuze die "beter" is dan andere? Ten tweede willen we taalmodellen vaak afstemmen op meerdere eigenschappen: hoe moeten we meerdere beloningsmodellen combineren? Met behulp van een probabilistische interpretatie van het afstemmingsproces identificeren we een natuurlijke keuze voor transformatie voor (het veelvoorkomende geval van) beloningen die zijn geleerd uit Bradley-Terry voorkeursmodellen. Deze afgeleide transformatie heeft twee belangrijke eigenschappen. Ten eerste benadrukt het het verbeteren van slecht presterende uitvoer, in plaats van uitvoer die al goed scoort. Dit vermindert zowel onderfitting (waarbij sommige prompts niet worden verbeterd) als beloningsmanipulatie (waarbij het model leert om misspecificatie van het beloningsmodel uit te buiten). Ten tweede maakt het een principiële aggregatie van beloningen mogelijk door optelling te koppelen aan logische conjunctie: de som van getransformeerde beloningen komt overeen met de waarschijnlijkheid dat de uitvoer "goed" is in alle gemeten eigenschappen, in een zin die we precies maken. Experimenten waarbij taalmodellen worden afgestemd om zowel behulpzaam als onschadelijk te zijn met behulp van RLHF tonen aanzienlijke verbeteringen ten opzichte van de baseline (niet-getransformeerde) aanpak.
English
A common approach for aligning language models to human preferences is to
first learn a reward model from preference data, and then use this reward model
to update the language model. We study two closely related problems that arise
in this approach. First, any monotone transformation of the reward model
preserves preference ranking; is there a choice that is ``better'' than others?
Second, we often wish to align language models to multiple properties: how
should we combine multiple reward models? Using a probabilistic interpretation
of the alignment procedure, we identify a natural choice for transformation for
(the common case of) rewards learned from Bradley-Terry preference models. This
derived transformation has two important properties. First, it emphasizes
improving poorly-performing outputs, rather than outputs that already score
well. This mitigates both underfitting (where some prompts are not improved)
and reward hacking (where the model learns to exploit misspecification of the
reward model). Second, it enables principled aggregation of rewards by linking
summation to logical conjunction: the sum of transformed rewards corresponds to
the probability that the output is ``good'' in all measured properties, in a
sense we make precise. Experiments aligning language models to be both helpful
and harmless using RLHF show substantial improvements over the baseline
(non-transformed) approach.