Ajudando ou Pastoreando? Conjuntos de Modelos de Recompensa Mitigam, mas não Eliminam, o Hackeamento de Recompensas

Resumo

Modelos de recompensa desempenham um papel fundamental no alinhamento de aplicações de modelos de linguagem com as preferências humanas. No entanto, essa configuração cria um incentivo para o modelo de linguagem explorar erros no modelo de recompensa para alcançar uma recompensa estimada alta, um fenômeno frequentemente chamado de "hacking de recompensa". Uma mitigação natural é treinar um conjunto de modelos de recompensa, agregando as saídas dos modelos para obter uma estimativa de recompensa mais robusta. Exploramos a aplicação de conjuntos de recompensa no alinhamento tanto durante o treinamento (através de aprendizado por reforço) quanto durante a inferência (através de reclassificação). Primeiro, mostramos que os modelos de recompensa são subespecificados: modelos de recompensa que têm desempenho semelhante dentro da distribuição podem gerar recompensas muito diferentes quando usados no alinhamento, devido à mudança de distribuição. Segundo, a subespecificação resulta em superotimização, onde o alinhamento a um modelo de recompensa não melhora a recompensa medida por outro modelo de recompensa treinado nos mesmos dados. Terceiro, a superotimização é mitigada pelo uso de conjuntos de recompensa, e conjuntos que variam por suas sementes de pré-treinamento levam a uma melhor generalização do que conjuntos que diferem apenas por suas sementes de ajuste fino, com ambos superando modelos de recompensa individuais. No entanto, mesmo conjuntos de recompensa de pré-treinamento não eliminam o hacking de recompensa: mostramos vários fenômenos qualitativos de hacking de recompensa que não são mitigados pela formação de conjuntos, pois todos os modelos de recompensa no conjunto exibem padrões de erro semelhantes.

English

Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed reward hacking. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are underspecified: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their pretraining seeds lead to better generalization than ensembles that differ only by their fine-tuning seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.

Ajudando ou Pastoreando? Conjuntos de Modelos de Recompensa Mitigam, mas não Eliminam, o Hackeamento de Recompensas

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Resumo

Support