Axiomatische Voorkeursmodellering voor Langformulier Vraagbeantwoording
Axiomatic Preference Modeling for Longform Question Answering
December 2, 2023
Auteurs: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
cs.AI
Samenvatting
De opmerkelijke vaardigheden van grote taalmodelen (LLMs) zoals GPT-4 zijn deels te danken aan post-trainingsprocessen zoals Reinforcement Learning from Human Feedback (RLHF), waarbij menselijke voorkeuren worden vastgelegd in een beloningsmodel. Deze beloningsmodellen (RMs) hebben echter vaak geen directe kennis van de redenen of principes achter de voorkeursannotaties. In deze studie identificeren we principes die RMs beter laten aansluiten bij menselijke voorkeuren, en ontwikkelen we vervolgens een axiomatisch kader om een breed scala aan voorkeurssignalen te genereren die deze principes ondersteunen. We gebruiken deze axiomatische signalen om een model te trainen dat antwoorden op langlopende vragen beoordeelt. Onze aanpak resulteert in een Voorkeursmodel met slechts ongeveer 220M parameters dat vaker overeenkomt met door mensen geannoteerde voorkeurslabels dan GPT-4. De bijdragen van dit werk omvatten: het trainen van een zelfstandig voorkeursmodel dat zowel door mensen als door LLM gegenereerde antwoorden op dezelfde schaal kan beoordelen; het ontwikkelen van een axiomatisch kader voor het genereren van trainingsdataparen die zijn afgestemd op bepaalde principes; en het aantonen dat een kleine hoeveelheid axiomatische signalen kleine modellen kan helpen GPT-4 te overtreffen in voorkeursbeoordeling. We hebben ons model vrijgegeven op huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
English
The remarkable abilities of large language models (LLMs) like GPT-4 partially
stem from post-training processes like Reinforcement Learning from Human
Feedback (RLHF) involving human preferences encoded in a reward model. However,
these reward models (RMs) often lack direct knowledge of why, or under what
principles, the preferences annotations were made. In this study, we identify
principles that guide RMs to better align with human preferences, and then
develop an axiomatic framework to generate a rich variety of preference signals
to uphold them. We use these axiomatic signals to train a model for scoring
answers to longform questions. Our approach yields a Preference Model with only
about 220M parameters that agrees with gold human-annotated preference labels
more often than GPT-4. The contributions of this work include: training a
standalone preference model that can score human- and LLM-generated answers on
the same scale; developing an axiomatic framework for generating training data
pairs tailored to certain principles; and showing that a small amount of
axiomatic signals can help small models outperform GPT-4 in preference scoring.
We release our model on huggingface:
https://huggingface.co/corbyrosset/axiomatic_preference_model