Modellazione Assiomatica delle Preferenze per il Rispondere a Domande di Lungo Formato
Axiomatic Preference Modeling for Longform Question Answering
December 2, 2023
Autori: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
cs.AI
Abstract
Le straordinarie capacità dei grandi modelli linguistici (LLM) come GPT-4 derivano in parte da processi di post-addestramento come il Reinforcement Learning from Human Feedback (RLHF), che coinvolge preferenze umane codificate in un modello di ricompensa. Tuttavia, questi modelli di ricompensa (RM) spesso non possiedono una conoscenza diretta del perché, o in base a quali principi, siano state effettuate le annotazioni delle preferenze. In questo studio, identifichiamo i principi che guidano i RM per allinearli meglio alle preferenze umane, e sviluppiamo quindi un framework assiomatico per generare una varietà ricca di segnali di preferenza che li sostengano. Utilizziamo questi segnali assiomatici per addestrare un modello per valutare le risposte a domande di tipo longform. Il nostro approccio produce un Modello di Preferenza con soli circa 220 milioni di parametri che concorda con le etichette di preferenza annotate da esseri umani più spesso rispetto a GPT-4. I contributi di questo lavoro includono: l'addestramento di un modello di preferenza autonomo in grado di valutare risposte generate da esseri umani e da LLM sulla stessa scala; lo sviluppo di un framework assiomatico per generare coppie di dati di addestramento personalizzate per determinati principi; e la dimostrazione che una piccola quantità di segnali assiomatici può aiutare modelli di piccole dimensioni a superare GPT-4 nella valutazione delle preferenze. Rilasciamo il nostro modello su huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
English
The remarkable abilities of large language models (LLMs) like GPT-4 partially
stem from post-training processes like Reinforcement Learning from Human
Feedback (RLHF) involving human preferences encoded in a reward model. However,
these reward models (RMs) often lack direct knowledge of why, or under what
principles, the preferences annotations were made. In this study, we identify
principles that guide RMs to better align with human preferences, and then
develop an axiomatic framework to generate a rich variety of preference signals
to uphold them. We use these axiomatic signals to train a model for scoring
answers to longform questions. Our approach yields a Preference Model with only
about 220M parameters that agrees with gold human-annotated preference labels
more often than GPT-4. The contributions of this work include: training a
standalone preference model that can score human- and LLM-generated answers on
the same scale; developing an axiomatic framework for generating training data
pairs tailored to certain principles; and showing that a small amount of
axiomatic signals can help small models outperform GPT-4 in preference scoring.
We release our model on huggingface:
https://huggingface.co/corbyrosset/axiomatic_preference_model