WARP: Sobre los beneficios de las políticas recompensadas con promedio de pesos
WARP: On the Benefits of Weight Averaged Rewarded Policies
June 24, 2024
Autores: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem
cs.AI
Resumen
El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) alinea los modelos de lenguaje de gran escala (LLMs) al incentivar que sus generaciones obtengan recompensas elevadas, utilizando un modelo de recompensa entrenado con preferencias humanas. Para evitar el olvido del conocimiento preentrenado, RLHF suele incorporar una regularización KL; esto obliga a la política a mantenerse cercana a su inicialización ajustada mediante supervisión, aunque limita la optimización de la recompensa. Para abordar el equilibrio entre KL y recompensa, en este artículo presentamos una novedosa estrategia de alineación denominada Políticas Recompensadas con Promedio de Pesos (WARP, por sus siglas en inglés). WARP combina políticas en el espacio de pesos en tres etapas distintas. Primero, utiliza el promedio móvil exponencial de la política como un ancla dinámica en la regularización KL. Segundo, aplica interpolación esférica para fusionar políticas ajustadas de manera independiente en una nueva política mejorada. Tercero, realiza una interpolación lineal entre este modelo fusionado y la inicialización, para recuperar características del preentrenamiento. Este procedimiento se aplica de manera iterativa, utilizando el modelo final de cada iteración como una inicialización avanzada para la siguiente, refinando progresivamente el frente de Pareto KL-recompensa y logrando recompensas superiores con un KL fijo. Experimentos con políticas GEMMA validan que WARP mejora su calidad y alineación, superando a otros LLMs de código abierto.
English
Reinforcement learning from human feedback (RLHF) aligns large language
models (LLMs) by encouraging their generations to have high rewards, using a
reward model trained on human preferences. To prevent the forgetting of
pre-trained knowledge, RLHF usually incorporates a KL regularization; this
forces the policy to remain close to its supervised fine-tuned initialization,
though it hinders the reward optimization. To tackle the trade-off between KL
and reward, in this paper we introduce a novel alignment strategy named Weight
Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at
three distinct stages. First, it uses the exponential moving average of the
policy as a dynamic anchor in the KL regularization. Second, it applies
spherical interpolation to merge independently fine-tuned policies into a new
enhanced one. Third, it linearly interpolates between this merged model and the
initialization, to recover features from pre-training. This procedure is then
applied iteratively, with each iteration's final model used as an advanced
initialization for the next, progressively refining the KL-reward Pareto front,
achieving superior rewards at fixed KL. Experiments with GEMMA policies
validate that WARP improves their quality and alignment, outperforming other
open-source LLMs.Summary
AI-Generated Summary