ChatPaper.aiChatPaper

Modélisation axiomatique des préférences pour la réponse aux questions longues

Axiomatic Preference Modeling for Longform Question Answering

December 2, 2023
Auteurs: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
cs.AI

Résumé

Les capacités remarquables des grands modèles de langage (LLMs) comme GPT-4 découlent en partie de processus post-entraînement tels que l'apprentissage par renforcement à partir de retours humains (RLHF), qui intègrent des préférences humaines encodées dans un modèle de récompense. Cependant, ces modèles de récompense (RMs) manquent souvent de connaissances directes sur les raisons ou les principes sous-jacents aux annotations de préférences. Dans cette étude, nous identifions des principes qui guident les RMs pour mieux s'aligner sur les préférences humaines, puis nous développons un cadre axiomatique pour générer une variété riche de signaux de préférence afin de les respecter. Nous utilisons ces signaux axiomatiques pour entraîner un modèle capable de noter les réponses à des questions détaillées. Notre approche produit un modèle de préférence avec seulement environ 220 millions de paramètres, qui s'accorde plus souvent avec les étiquettes de préférence annotées par des humains que GPT-4. Les contributions de ce travail incluent : l'entraînement d'un modèle de préférence autonome capable de noter les réponses générées par des humains et des LLMs sur la même échelle ; le développement d'un cadre axiomatique pour générer des paires de données d'entraînement adaptées à certains principes ; et la démonstration qu'une petite quantité de signaux axiomatiques peut aider des modèles de petite taille à surpasser GPT-4 en matière de notation des préférences. Nous mettons notre modèle à disposition sur huggingface : https://huggingface.co/corbyrosset/axiomatic_preference_model.
English
The remarkable abilities of large language models (LLMs) like GPT-4 partially stem from post-training processes like Reinforcement Learning from Human Feedback (RLHF) involving human preferences encoded in a reward model. However, these reward models (RMs) often lack direct knowledge of why, or under what principles, the preferences annotations were made. In this study, we identify principles that guide RMs to better align with human preferences, and then develop an axiomatic framework to generate a rich variety of preference signals to uphold them. We use these axiomatic signals to train a model for scoring answers to longform questions. Our approach yields a Preference Model with only about 220M parameters that agrees with gold human-annotated preference labels more often than GPT-4. The contributions of this work include: training a standalone preference model that can score human- and LLM-generated answers on the same scale; developing an axiomatic framework for generating training data pairs tailored to certain principles; and showing that a small amount of axiomatic signals can help small models outperform GPT-4 in preference scoring. We release our model on huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model
PDF101December 15, 2024