Modelagem de Preferências Axiomáticas para Respostas a Perguntas de Longo Formato
Axiomatic Preference Modeling for Longform Question Answering
December 2, 2023
Autores: Corby Rosset, Guoqing Zheng, Victor Dibia, Ahmed Awadallah, Paul Bennett
cs.AI
Resumo
As habilidades notáveis dos grandes modelos de linguagem (LLMs), como o GPT-4, derivam parcialmente de processos pós-treinamento, como o Aprendizado por Reforço com Feedback Humano (RLHF), que envolve preferências humanas codificadas em um modelo de recompensa. No entanto, esses modelos de recompensa (RMs) frequentemente carecem de conhecimento direto sobre o porquê, ou sob quais princípios, as anotações de preferências foram feitas. Neste estudo, identificamos princípios que orientam os RMs a se alinharem melhor com as preferências humanas e, em seguida, desenvolvemos uma estrutura axiomática para gerar uma variedade rica de sinais de preferência que os sustentam. Utilizamos esses sinais axiomáticos para treinar um modelo de pontuação de respostas a perguntas de formato longo. Nossa abordagem resulta em um Modelo de Preferência com apenas cerca de 220 milhões de parâmetros que concorda com rótulos de preferência anotados por humanos mais frequentemente do que o GPT-4. As contribuições deste trabalho incluem: treinar um modelo de preferência independente que pode pontuar respostas geradas por humanos e LLMs na mesma escala; desenvolver uma estrutura axiomática para gerar pares de dados de treinamento adaptados a certos princípios; e demonstrar que uma pequena quantidade de sinais axiomáticos pode ajudar modelos menores a superar o GPT-4 na pontuação de preferências. Disponibilizamos nosso modelo no Hugging Face: https://huggingface.co/corbyrosset/axiomatic_preference_model.
English
The remarkable abilities of large language models (LLMs) like GPT-4 partially
stem from post-training processes like Reinforcement Learning from Human
Feedback (RLHF) involving human preferences encoded in a reward model. However,
these reward models (RMs) often lack direct knowledge of why, or under what
principles, the preferences annotations were made. In this study, we identify
principles that guide RMs to better align with human preferences, and then
develop an axiomatic framework to generate a rich variety of preference signals
to uphold them. We use these axiomatic signals to train a model for scoring
answers to longform questions. Our approach yields a Preference Model with only
about 220M parameters that agrees with gold human-annotated preference labels
more often than GPT-4. The contributions of this work include: training a
standalone preference model that can score human- and LLM-generated answers on
the same scale; developing an axiomatic framework for generating training data
pairs tailored to certain principles; and showing that a small amount of
axiomatic signals can help small models outperform GPT-4 in preference scoring.
We release our model on huggingface:
https://huggingface.co/corbyrosset/axiomatic_preference_model