WARP: О преимуществах взвешенных средних вознагражденных политик.
WARP: On the Benefits of Weight Averaged Rewarded Policies
June 24, 2024
Авторы: Alexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem
cs.AI
Аннотация
Обучение с подкреплением на основе обратной связи от человека (RLHF) выравнивает большие языковые модели (LLM), поощряя их генерации с высокими вознаграждениями с использованием модели вознаграждения, обученной на человеческих предпочтениях. Для предотвращения забывания предварительных знаний RLHF обычно включает регуляризацию KL; это заставляет политику оставаться близкой к своей надзорной тонкой настройке инициализации, хотя это затрудняет оптимизацию вознаграждения. Чтобы решить компромисс между KL и вознаграждением, в данной статье мы представляем новую стратегию выравнивания под названием Weight Averaged Rewarded Policies (WARP). WARP объединяет политики в пространстве весов на трех различных этапах. Во-первых, он использует экспоненциальное скользящее среднее политики в качестве динамической якорной точки в регуляризации KL. Во-вторых, он применяет сферическую интерполяцию для слияния независимо настроенных политик в новую улучшенную. В-третьих, он линейно интерполирует между этой объединенной моделью и инициализацией, чтобы восстановить функции из предварительного обучения. Эта процедура затем применяется итеративно, причем окончательная модель каждой итерации используется в качестве продвинутой инициализации для следующей, постепенно уточняя фронт КЛ-вознаграждения, достигая превосходных вознаграждений при фиксированном KL. Эксперименты с политиками GEMMA подтверждают, что WARP улучшает их качество и выравнивание, превосходя другие LLM с открытым исходным кодом.
English
Reinforcement learning from human feedback (RLHF) aligns large language
models (LLMs) by encouraging their generations to have high rewards, using a
reward model trained on human preferences. To prevent the forgetting of
pre-trained knowledge, RLHF usually incorporates a KL regularization; this
forces the policy to remain close to its supervised fine-tuned initialization,
though it hinders the reward optimization. To tackle the trade-off between KL
and reward, in this paper we introduce a novel alignment strategy named Weight
Averaged Rewarded Policies (WARP). WARP merges policies in the weight space at
three distinct stages. First, it uses the exponential moving average of the
policy as a dynamic anchor in the KL regularization. Second, it applies
spherical interpolation to merge independently fine-tuned policies into a new
enhanced one. Third, it linearly interpolates between this merged model and the
initialization, to recover features from pre-training. This procedure is then
applied iteratively, with each iteration's final model used as an advanced
initialization for the next, progressively refining the KL-reward Pareto front,
achieving superior rewards at fixed KL. Experiments with GEMMA policies
validate that WARP improves their quality and alignment, outperforming other
open-source LLMs.Summary
AI-Generated Summary