ChatPaper.aiChatPaper

WARP: sui vantaggi delle politiche premiate con media ponderata

WARP: On the Benefits of Weight Averaged Rewarded Policies

June 24, 2024
Autori: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem
cs.AI

Abstract

Il reinforcement learning da feedback umano (RLHF) allinea i grandi modelli linguistici (LLM) incoraggiando le loro generazioni a ottenere ricompense elevate, utilizzando un modello di ricompensa addestrato sulle preferenze umane. Per prevenire la perdita delle conoscenze pre-addestrate, l'RLHF incorpora solitamente una regolarizzazione KL; questo costringe la politica a rimanere vicina alla sua inizializzazione fine-tuned supervisionata, sebbene ostacoli l'ottimizzazione della ricompensa. Per affrontare il compromesso tra KL e ricompensa, in questo articolo introduciamo una nuova strategia di allineamento denominata Weight Averaged Rewarded Policies (WARP). WARP fonde le politiche nello spazio dei pesi in tre fasi distinte. Innanzitutto, utilizza la media mobile esponenziale della politica come ancoraggio dinamico nella regolarizzazione KL. In secondo luogo, applica l'interpolazione sferica per fondere politiche fine-tuned indipendentemente in una nuova politica potenziata. In terzo luogo, esegue un'interpolazione lineare tra questo modello fuso e l'inizializzazione, per recuperare le caratteristiche del pre-addestramento. Questa procedura viene quindi applicata iterativamente, con il modello finale di ogni iterazione utilizzato come inizializzazione avanzata per la successiva, perfezionando progressivamente il fronte Pareto KL-ricompensa e ottenendo ricompense superiori a KL fissi. Esperimenti con politiche GEMMA confermano che WARP migliora la loro qualità e allineamento, superando altri LLM open-source.
English
Reinforcement learning from human feedback (RLHF) aligns large language models (LLMs) by encouraging their generations to have high rewards, using a reward model trained on human preferences. To prevent the forgetting of pre-trained knowledge, RLHF usually incorporates a KL regularization; this forces the policy to remain close to its supervised fine-tuned initialization, though it hinders the reward optimization. To tackle the trade-off between KL and reward, in this paper we introduce a novel alignment strategy named Weight Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at three distinct stages. First, it uses the exponential moving average of the policy as a dynamic anchor in the KL regularization. Second, it applies spherical interpolation to merge independently fine-tuned policies into a new enhanced one. Third, it linearly interpolates between this merged model and the initialization, to recover features from pre-training. This procedure is then applied iteratively, with each iteration's final model used as an advanced initialization for the next, progressively refining the KL-reward Pareto front, achieving superior rewards at fixed KL. Experiments with GEMMA policies validate that WARP improves their quality and alignment, outperforming other open-source LLMs.
PDF231February 8, 2026