Axiomatische Voorkeursmodellering voor Langformulier Vraagbeantwoording

Samenvatting

De opmerkelijke vaardigheden van grote taalmodelen (LLMs) zoals GPT-4 zijn deels te danken aan post-trainingsprocessen zoals Reinforcement Learning from Human Feedback (RLHF), waarbij menselijke voorkeuren worden vastgelegd in een beloningsmodel. Deze beloningsmodellen (RMs) hebben echter vaak geen directe kennis van de redenen of principes achter de voorkeursannotaties. In deze studie identificeren we principes die RMs beter laten aansluiten bij menselijke voorkeuren, en ontwikkelen we vervolgens een axiomatisch kader om een breed scala aan voorkeurssignalen te genereren die deze principes ondersteunen. We gebruiken deze axiomatische signalen om een model te trainen dat antwoorden op langlopende vragen beoordeelt. Onze aanpak resulteert in een Voorkeursmodel met slechts ongeveer 220M parameters dat vaker overeenkomt met door mensen geannoteerde voorkeurslabels dan GPT-4. De bijdragen van dit werk omvatten: het trainen van een zelfstandig voorkeursmodel dat zowel door mensen als door LLM gegenereerde antwoorden op dezelfde schaal kan beoordelen; het ontwikkelen van een axiomatisch kader voor het genereren van trainingsdataparen die zijn afgestemd op bepaalde principes; en het aantonen dat een kleine hoeveelheid axiomatische signalen kleine modellen kan helpen GPT-4 te overtreffen in voorkeursbeoordeling. We hebben ons model vrijgegeven op huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.

English

The remarkable abilities of large language models (LLMs) like GPT-4 partially stem from post-training processes like Reinforcement Learning from Human Feedback (RLHF) involving human preferences encoded in a reward model. However, these reward models (RMs) often lack direct knowledge of why, or under what principles, the preferences annotations were made. In this study, we identify principles that guide RMs to better align with human preferences, and then develop an axiomatic framework to generate a rich variety of preference signals to uphold them. We use these axiomatic signals to train a model for scoring answers to longform questions. Our approach yields a Preference Model with only about 220M parameters that agrees with gold human-annotated preference labels more often than GPT-4. The contributions of this work include: training a standalone preference model that can score human- and LLM-generated answers on the same scale; developing an axiomatic framework for generating training data pairs tailored to certain principles; and showing that a small amount of axiomatic signals can help small models outperform GPT-4 in preference scoring. We release our model on huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model

Axiomatische Voorkeursmodellering voor Langformulier Vraagbeantwoording

Axiomatic Preference Modeling for Longform Question Answering

Samenvatting

Support