Axiomatische Präferenzmodellierung für die Beantwortung ausführlicher Fragen
Axiomatic Preference Modeling for Longform Question Answering
December 2, 2023
Autoren: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
cs.AI
Zusammenfassung
Die bemerkenswerten Fähigkeiten großer Sprachmodelle (LLMs) wie GPT-4 resultieren teilweise aus Nachbearbeitungsprozessen wie Reinforcement Learning from Human Feedback (RLHF), bei denen menschliche Präferenzen in einem Belohnungsmodell kodiert werden. Diese Belohnungsmodelle (RMs) verfügen jedoch oft nicht über direktes Wissen darüber, warum oder nach welchen Prinzipien die Präferenzannotationen vorgenommen wurden. In dieser Studie identifizieren wir Prinzipien, die RMs dabei leiten, besser mit menschlichen Präferenzen übereinzustimmen, und entwickeln dann ein axiomatisches Framework, um eine Vielzahl von Präferenzsignalen zu erzeugen, die diese Prinzipien unterstützen. Wir verwenden diese axiomatischen Signale, um ein Modell zur Bewertung von Antworten auf umfangreiche Fragen zu trainieren. Unser Ansatz führt zu einem Präferenzmodell mit nur etwa 220M Parametern, das häufiger mit goldstandardisierten, menschlich annotierten Präferenzlabels übereinstimmt als GPT-4. Die Beiträge dieser Arbeit umfassen: das Training eines eigenständigen Präferenzmodells, das menschlich und von LLMs generierte Antworten auf derselben Skala bewerten kann; die Entwicklung eines axiomatischen Frameworks zur Erzeugung von Trainingsdatenpaaren, die auf bestimmte Prinzipien zugeschnitten sind; und den Nachweis, dass eine kleine Menge axiomatischer Signale kleinen Modellen helfen kann, GPT-4 in der Präferenzbewertung zu übertreffen. Wir veröffentlichen unser Modell auf huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
English
The remarkable abilities of large language models (LLMs) like GPT-4 partially
stem from post-training processes like Reinforcement Learning from Human
Feedback (RLHF) involving human preferences encoded in a reward model. However,
these reward models (RMs) often lack direct knowledge of why, or under what
principles, the preferences annotations were made. In this study, we identify
principles that guide RMs to better align with human preferences, and then
develop an axiomatic framework to generate a rich variety of preference signals
to uphold them. We use these axiomatic signals to train a model for scoring
answers to longform questions. Our approach yields a Preference Model with only
about 220M parameters that agrees with gold human-annotated preference labels
more often than GPT-4. The contributions of this work include: training a
standalone preference model that can score human- and LLM-generated answers on
the same scale; developing an axiomatic framework for generating training data
pairs tailored to certain principles; and showing that a small amount of
axiomatic signals can help small models outperform GPT-4 in preference scoring.
We release our model on huggingface:
https://huggingface.co/corbyrosset/axiomatic_preference_model