WARM: Sobre los beneficios de los modelos de recompensa con promediado de pesos
WARM: On the Benefits of Weight Averaged Reward Models
January 22, 2024
Autores: Alexandre Ramé, Nino Vieillard, Léonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, Johan Ferret
cs.AI
Resumen
Alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas mediante aprendizaje por refuerzo (RLHF) puede llevar al hackeo de recompensas, donde los LLMs explotan fallas en el modelo de recompensa (RM) para lograr recompensas aparentemente altas sin cumplir los objetivos subyacentes. Identificamos dos desafíos principales al diseñar RMs para mitigar el hackeo de recompensas: cambios de distribución durante el proceso de RL e inconsistencias en las preferencias humanas. Como solución, proponemos Modelos de Recompensa con Promedio de Pesos (WARM), que primero ajustan múltiples RMs y luego los promedian en el espacio de pesos. Esta estrategia se basa en la observación de que los pesos ajustados permanecen linealmente conectados en modo cuando comparten la misma preentrenamiento. Al promediar pesos, WARM mejora la eficiencia en comparación con el ensamblado tradicional de predicciones, mientras aumenta la confiabilidad ante cambios de distribución y la robustez frente a inconsistencias en las preferencias. Nuestros experimentos en tareas de resumen, utilizando métodos de mejor-de-N y RL, muestran que WARM mejora la calidad general y la alineación de las predicciones de los LLMs; por ejemplo, una política ajustada con RL usando WARM tiene una tasa de victoria del 79.4% frente a una política ajustada con RL usando un solo RM.
English
Aligning large language models (LLMs) with human preferences through
reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit
failures in the reward model (RM) to achieve seemingly high rewards without
meeting the underlying objectives. We identify two primary challenges when
designing RMs to mitigate reward hacking: distribution shifts during the RL
process and inconsistencies in human preferences. As a solution, we propose
Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then
averaging them in the weight space. This strategy follows the observation that
fine-tuned weights remain linearly mode connected when sharing the same
pre-training. By averaging weights, WARM improves efficiency compared to the
traditional ensembling of predictions, while improving reliability under
distribution shifts and robustness to preference inconsistencies. Our
experiments on summarization tasks, using best-of-N and RL methods, shows that
WARM improves the overall quality and alignment of LLM predictions; for
example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy
RL fine-tuned with a single RM.