¿Ayudar o guiar? Los conjuntos de modelos de recompensa mitigan pero no eliminan la manipulación de recompensas

Resumen

Los modelos de recompensa desempeñan un papel clave en alinear las aplicaciones de los modelos de lenguaje con las preferencias humanas. Sin embargo, esta configuración crea un incentivo para que el modelo de lenguaje explote los errores del modelo de recompensa con el fin de lograr una recompensa estimada alta, un fenómeno a menudo denominado "hackeo de recompensas". Una mitigación natural es entrenar un conjunto de modelos de recompensa, agregando sus salidas para obtener una estimación de recompensa más robusta. Exploramos la aplicación de conjuntos de recompensas en la alineación tanto durante el entrenamiento (mediante aprendizaje por refuerzo) como en el momento de inferencia (a través de reordenamiento). Primero, demostramos que los modelos de recompensa están subespecificados: modelos de recompensa que se desempeñan de manera similar dentro de la distribución pueden generar recompensas muy diferentes cuando se usan en la alineación, debido al cambio de distribución. Segundo, la subespecificación resulta en sobreoptimización, donde la alineación a un modelo de recompensa no mejora la recompensa medida por otro modelo de recompensa entrenado con los mismos datos. Tercero, la sobreoptimización se mitiga mediante el uso de conjuntos de recompensas, y los conjuntos que varían según sus semillas de preentrenamiento logran una mejor generalización que los conjuntos que difieren solo por sus semillas de ajuste fino, superando ambos a los modelos de recompensa individuales. Sin embargo, incluso los conjuntos de recompensas de preentrenamiento no eliminan el hackeo de recompensas: mostramos varios fenómenos cualitativos de hackeo de recompensas que no se mitigan mediante el uso de conjuntos, ya que todos los modelos de recompensa en el conjunto exhiben patrones de error similares.

English

Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed reward hacking. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are underspecified: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their pretraining seeds lead to better generalization than ensembles that differ only by their fine-tuning seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.

¿Ayudar o guiar? Los conjuntos de modelos de recompensa mitigan pero no eliminan la manipulación de recompensas

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Resumen

Support