Стабилизация RLHF с помощью модели преимуществ и избирательного повторения

Аннотация

Крупные языковые модели (LLM) произвели революцию в обработке естественного языка, однако согласование этих моделей с человеческими ценностями и предпочтениями с использованием обучения с подкреплением на основе человеческой обратной связи (RLHF) остается серьезной проблемой. Эта проблема характеризуется различными нестабильностями, такими как взлом наград и катастрофическое забывание. В данном техническом отчете мы предлагаем два нововведения для стабилизации обучения RLHF: 1) Модель преимуществ, которая напрямую моделирует показатель преимущества, то есть дополнительное вознаграждение по сравнению с ожидаемыми наградами, и регулирует распределение оценок между задачами для предотвращения взлома наград. 2) Избирательное повторение, которое смягчает катастрофическое забывание за счет стратегического выбора данных для обучения PPO и повторения знаний. Наш экспериментальный анализ на публичных и проприетарных наборах данных показывает, что предложенные методы не только повышают стабильность обучения RLHF, но и достигают более высоких показателей наград и коэффициентов выигрыша.

English

Large Language Models (LLMs) have revolutionized natural language processing, yet aligning these models with human values and preferences using RLHF remains a significant challenge. This challenge is characterized by various instabilities, such as reward hacking and catastrophic forgetting. In this technical report, we propose two innovations to stabilize RLHF training: 1) Advantage Model, which directly models advantage score i.e., extra reward compared to the expected rewards and regulates score distributions across tasks to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic forgetting by strategically selecting data for PPO training and knowledge rehearsing. Our experimental analysis on public and proprietary datasets reveals that the proposed methods not only increase stability in RLHF training but also achieve higher reward scores and win rates.

Стабилизация RLHF с помощью модели преимуществ и избирательного повторения

Stabilizing RLHF through Advantage Model and Selective Rehearsal

Аннотация

Support