SALSA: Обучение выравниванию на основе супа для более сильной адаптации в RLHF

Аннотация

При разработке больших языковых моделей (LLM) обучение с подкреплением на основе обратной связи от человека (RLHF) играет решающую роль в согласовании моделей с человеческими ценностями и предпочтениями. RLHF традиционно опирается на дивергенцию Кульбака-Лейблера (KL) между текущей политикой и замороженной начальной политикой в качестве эталона, который добавляется в виде штрафа в алгоритмы оптимизации политики, такие как Проксимальная оптимизация политики (PPO). Хотя это ограничение предотвращает отклонение моделей слишком далеко от начальной точки, оно ограничивает исследование пространства вознаграждений, уменьшая способность модели обнаруживать более качественные решения. В результате оптимизация политики часто застревает в узкой области пространства параметров, что приводит к неоптимальному согласованию и производительности. В данной статье представлен метод SALSA (Soup-based Alignment Learning for Stronger Adaptation), новый подход, разработанный для преодоления этих ограничений путем создания более гибкой и лучше расположенной эталонной модели путем усреднения весового пространства двух независимых моделей с применением надзорного обучения с тонкой настройкой (SFT). Эта модельная смесь позволяет более значительное отклонение в дивергенции KL и исследование многообещающей области пространства решений без ущерба стабильности. Используя эту более надежную эталонную модель, SALSA способствует более глубокому исследованию, достижению более высоких вознаграждений и улучшению устойчивости модели, обобщению вне распределения и производительности. Мы подтверждаем эффективность SALSA через обширные эксперименты на популярных открытых моделях (Llama2-7B, Mistral-7B и Gemma-2B) по различным бенчмаркам (MT-Bench, Arena-Hard, UltraFeedback), где он последовательно превосходит PPO, способствуя более глубокому исследованию и достижению превосходного согласования в LLM.

English

In Large Language Model (LLM) development, Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning models with human values and preferences. RLHF traditionally relies on the Kullback-Leibler (KL) divergence between the current policy and a frozen initial policy as a reference, which is added as a penalty in policy optimization algorithms like Proximal Policy Optimization (PPO). While this constraint prevents models from deviating too far from the initial checkpoint, it limits exploration of the reward landscape, reducing the model's ability to discover higher-quality solutions. As a result, policy optimization is often trapped in a narrow region of the parameter space, leading to suboptimal alignment and performance. This paper presents SALSA (Soup-based Alignment Learning for Stronger Adaptation), a novel approach designed to overcome these limitations by creating a more flexible and better located reference model through weight-space averaging of two independent supervised fine-tuned (SFT) models. This model soup allows for larger deviation in KL divergence and exploring a promising region of the solution space without sacrificing stability. By leveraging this more robust reference model, SALSA fosters better exploration, achieving higher rewards and improving model robustness, out-of-distribution generalization, and performance. We validate the effectiveness of SALSA through extensive experiments on popular open models (Llama2-7B, Mistral-7B, and Gemma-2B) across various benchmarks (MT-Bench, Arena-Hard, UltraFeedback), where it consistently surpasses PPO by fostering deeper exploration and achieving superior alignment in LLMs.

SALSA: Обучение выравниванию на основе супа для более сильной адаптации в RLHF

SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF

Аннотация

Support