Стабилизация RLHF с помощью модели преимуществ и избирательного повторения
Stabilizing RLHF through Advantage Model and Selective Rehearsal
September 18, 2023
Авторы: Baolin Peng, Linfeng Song, Ye Tian, Lifeng Jin, Haitao Mi, Dong Yu
cs.AI
Аннотация
Крупные языковые модели (LLM) произвели революцию в обработке естественного языка, однако согласование этих моделей с человеческими ценностями и предпочтениями с использованием обучения с подкреплением на основе человеческой обратной связи (RLHF) остается серьезной проблемой. Эта проблема характеризуется различными нестабильностями, такими как взлом наград и катастрофическое забывание. В данном техническом отчете мы предлагаем два нововведения для стабилизации обучения RLHF: 1) Модель преимуществ, которая напрямую моделирует показатель преимущества, то есть дополнительное вознаграждение по сравнению с ожидаемыми наградами, и регулирует распределение оценок между задачами для предотвращения взлома наград. 2) Избирательное повторение, которое смягчает катастрофическое забывание за счет стратегического выбора данных для обучения PPO и повторения знаний. Наш экспериментальный анализ на публичных и проприетарных наборах данных показывает, что предложенные методы не только повышают стабильность обучения RLHF, но и достигают более высоких показателей наград и коэффициентов выигрыша.
English
Large Language Models (LLMs) have revolutionized natural language processing,
yet aligning these models with human values and preferences using RLHF remains
a significant challenge. This challenge is characterized by various
instabilities, such as reward hacking and catastrophic forgetting. In this
technical report, we propose two innovations to stabilize RLHF training: 1)
Advantage Model, which directly models advantage score i.e., extra reward
compared to the expected rewards and regulates score distributions across tasks
to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic
forgetting by strategically selecting data for PPO training and knowledge
rehearsing. Our experimental analysis on public and proprietary datasets
reveals that the proposed methods not only increase stability in RLHF training
but also achieve higher reward scores and win rates.