ChatPaper.aiChatPaper

WARP: Over de Voordelen van Gewogen Gemiddelde Beloonde Beleidsfuncties

WARP: On the Benefits of Weight Averaged Rewarded Policies

June 24, 2024
Auteurs: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem
cs.AI

Samenvatting

Reinforcement learning from human feedback (RLHF) richt grote taalmmodellen (LLMs) af door hun generaties aan te moedigen hoge beloningen te behalen, met behulp van een beloningsmodel dat is getraind op menselijke voorkeuren. Om het vergeten van vooraf getrainde kennis te voorkomen, neemt RLHF meestal een KL-regularisatie op; dit dwingt het beleid om dicht bij zijn gecontroleerde, fijn afgestelde initiële instelling te blijven, hoewel het de beloningsoptimalisatie belemmert. Om de afweging tussen KL en beloning aan te pakken, introduceren we in dit artikel een nieuwe afstemmingsstrategie genaamd Weight Averaged Rewarded Policies (WARP). WARP combineert beleidsmodellen in de gewichtsruimte in drie verschillende fasen. Ten eerste gebruikt het het exponentieel voortschrijdend gemiddelde van het beleid als een dynamisch anker in de KL-regularisatie. Ten tweede past het sferische interpolatie toe om onafhankelijk fijn afgestelde beleidsmodellen samen te voegen tot een nieuw, verbeterd model. Ten derde interpoleert het lineair tussen dit samengevoegde model en de initiële instelling om kenmerken uit de voorafgaande training te herstellen. Deze procedure wordt vervolgens iteratief toegepast, waarbij het eindmodel van elke iteratie wordt gebruikt als een geavanceerde initiële instelling voor de volgende, waardoor de KL-beloning Pareto-front geleidelijk wordt verfijnd en superieure beloningen worden behaald bij een vaste KL. Experimenten met GEMMA-beleidsmodellen valideren dat WARP hun kwaliteit en afstemming verbetert, en presteert beter dan andere open-source LLMs.
English
Reinforcement learning from human feedback (RLHF) aligns large language models (LLMs) by encouraging their generations to have high rewards, using a reward model trained on human preferences. To prevent the forgetting of pre-trained knowledge, RLHF usually incorporates a KL regularization; this forces the policy to remain close to its supervised fine-tuned initialization, though it hinders the reward optimization. To tackle the trade-off between KL and reward, in this paper we introduce a novel alignment strategy named Weight Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at three distinct stages. First, it uses the exponential moving average of the policy as a dynamic anchor in the KL regularization. Second, it applies spherical interpolation to merge independently fine-tuned policies into a new enhanced one. Third, it linearly interpolates between this merged model and the initialization, to recover features from pre-training. This procedure is then applied iteratively, with each iteration's final model used as an advanced initialization for the next, progressively refining the KL-reward Pareto front, achieving superior rewards at fixed KL. Experiments with GEMMA policies validate that WARP improves their quality and alignment, outperforming other open-source LLMs.
PDF231February 8, 2026