ChatPaper.aiChatPaper

WARM: Sobre los beneficios de los modelos de recompensa con promediado de pesos

WARM: On the Benefits of Weight Averaged Reward Models

January 22, 2024
Autores: Alexandre Ramé, Nino Vieillard, Léonard Hussenot, Robert Dadashi, Geoffrey Cideron, Olivier Bachem, Johan Ferret
cs.AI

Resumen

Alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas mediante aprendizaje por refuerzo (RLHF) puede llevar al hackeo de recompensas, donde los LLMs explotan fallas en el modelo de recompensa (RM) para lograr recompensas aparentemente altas sin cumplir los objetivos subyacentes. Identificamos dos desafíos principales al diseñar RMs para mitigar el hackeo de recompensas: cambios de distribución durante el proceso de RL e inconsistencias en las preferencias humanas. Como solución, proponemos Modelos de Recompensa con Promedio de Pesos (WARM), que primero ajustan múltiples RMs y luego los promedian en el espacio de pesos. Esta estrategia se basa en la observación de que los pesos ajustados permanecen linealmente conectados en modo cuando comparten la misma preentrenamiento. Al promediar pesos, WARM mejora la eficiencia en comparación con el ensamblado tradicional de predicciones, mientras aumenta la confiabilidad ante cambios de distribución y la robustez frente a inconsistencias en las preferencias. Nuestros experimentos en tareas de resumen, utilizando métodos de mejor-de-N y RL, muestran que WARM mejora la calidad general y la alineación de las predicciones de los LLMs; por ejemplo, una política ajustada con RL usando WARM tiene una tasa de victoria del 79.4% frente a una política ajustada con RL usando un solo RM.
English
Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.
PDF207December 15, 2024