Aprendizado Ativo Bayesiano Profundo para Modelagem de Preferências em Modelos de Linguagem de Grande Escala
Deep Bayesian Active Learning for Preference Modeling in Large Language Models
June 14, 2024
Autores: Luckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal
cs.AI
Resumo
Aproveitar as preferências humanas para direcionar o comportamento de Modelos de Linguagem de Grande Escala (LLMs) tem demonstrado sucesso notável nos últimos anos. No entanto, a seleção e rotulagem de dados ainda representam um gargalo para esses sistemas, especialmente em grande escala. Portanto, selecionar os pontos mais informativos para adquirir feedback humano pode reduzir consideravelmente o custo da rotulagem de preferências e impulsionar o desenvolvimento adicional dos LLMs. O Aprendizado Ativo Bayesiano oferece uma estrutura fundamentada para abordar esse desafio e tem demonstrado sucesso notável em diversos contextos. No entanto, tentativas anteriores de empregá-lo para Modelagem de Preferências não alcançaram tais expectativas. Neste trabalho, identificamos que a estimativa ingênua da incerteza epistêmica leva à aquisição de amostras redundantes. Abordamos isso propondo o Aprendizado Ativo Bayesiano para Modelagem de Preferências (BAL-PM), uma nova política de aquisição estocástica que não apenas visa pontos de alta incerteza epistêmica de acordo com o modelo de preferência, mas também busca maximizar a entropia da distribuição de prompts adquiridos no espaço de características gerado pelo LLM utilizado. Notavelmente, nossos experimentos demonstram que o BAL-PM requer de 33% a 68% menos rótulos de preferência em dois conjuntos de dados populares de preferências humanas e supera políticas estocásticas de aquisição bayesianas anteriores.
English
Leveraging human preferences for steering the behavior of Large Language
Models (LLMs) has demonstrated notable success in recent years. Nonetheless,
data selection and labeling are still a bottleneck for these systems,
particularly at large scale. Hence, selecting the most informative points for
acquiring human feedback may considerably reduce the cost of preference
labeling and unleash the further development of LLMs. Bayesian Active Learning
provides a principled framework for addressing this challenge and has
demonstrated remarkable success in diverse settings. However, previous attempts
to employ it for Preference Modeling did not meet such expectations. In this
work, we identify that naive epistemic uncertainty estimation leads to the
acquisition of redundant samples. We address this by proposing the Bayesian
Active Learner for Preference Modeling (BAL-PM), a novel stochastic acquisition
policy that not only targets points of high epistemic uncertainty according to
the preference model but also seeks to maximize the entropy of the acquired
prompt distribution in the feature space spanned by the employed LLM. Notably,
our experiments demonstrate that BAL-PM requires 33% to 68% fewer preference
labels in two popular human preference datasets and exceeds previous stochastic
Bayesian acquisition policies.