WARP: Über die Vorteile von gewichteten durchschnittlichen belohnten Richtlinien
WARP: On the Benefits of Weight Averaged Rewarded Policies
June 24, 2024
Autoren: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem
cs.AI
Zusammenfassung
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) richtet große Sprachmodelle (LLMs) aus, indem sie deren Generierungen dazu ermutigt, hohe Belohnungen zu erhalten, unter Verwendung eines Belohnungsmodells, das auf menschlichen Präferenzen trainiert ist. Um das Vergessen des vorab trainierten Wissens zu verhindern, integriert RLHF in der Regel eine KL-Regularisierung; diese zwingt die Richtlinie, nahe an ihrer überwachten feinabgestimmten Initialisierung zu bleiben, obwohl sie die Belohnungsoptimierung behindert. Um den Kompromiss zwischen KL und Belohnung zu bewältigen, stellen wir in diesem Papier eine neue Ausrichtungsstrategie namens Weight Averaged Rewarded Policies (WARP) vor. WARP fusioniert Richtlinien im Gewichtsraum in drei verschiedenen Stufen. Zunächst verwendet es den exponentiell gleitenden Durchschnitt der Richtlinie als dynamischen Anker in der KL-Regularisierung. Zweitens wendet es sphärische Interpolation an, um unabhängig feinabgestimmte Richtlinien in eine neue verbesserte Richtlinie zu fusionieren. Drittens interpoliert es linear zwischen diesem fusionierten Modell und der Initialisierung, um Merkmale aus dem Vorabtraining wiederherzustellen. Dieses Verfahren wird dann iterativ angewendet, wobei das endgültige Modell jeder Iteration als fortgeschrittene Initialisierung für die nächste verwendet wird, um den KL-Belohnungs-Pareto-Frontverlauf schrittweise zu verfeinern und überlegene Belohnungen bei festem KL zu erzielen. Experimente mit GEMMA-Richtlinien bestätigen, dass WARP deren Qualität und Ausrichtung verbessert und andere Open-Source-LLMs übertrifft.
English
Reinforcement learning from human feedback (RLHF) aligns large language
models (LLMs) by encouraging their generations to have high rewards, using a
reward model trained on human preferences. To prevent the forgetting of
pre-trained knowledge, RLHF usually incorporates a KL regularization; this
forces the policy to remain close to its supervised fine-tuned initialization,
though it hinders the reward optimization. To tackle the trade-off between KL
and reward, in this paper we introduce a novel alignment strategy named Weight
Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at
three distinct stages. First, it uses the exponential moving average of the
policy as a dynamic anchor in the KL regularization. Second, it applies
spherical interpolation to merge independently fine-tuned policies into a new
enhanced one. Third, it linearly interpolates between this merged model and the
initialization, to recover features from pre-training. This procedure is then
applied iteratively, with each iteration's final model used as an advanced
initialization for the next, progressively refining the KL-reward Pareto front,
achieving superior rewards at fixed KL. Experiments with GEMMA policies
validate that WARP improves their quality and alignment, outperforming other
open-source LLMs.Summary
AI-Generated Summary