REINFORCE++: Простой и эффективный подход для выравнивания больших языковых моделейREINFORCE++: A Simple and Efficient Approach for Aligning Large Language
Models
Обучение с подкреплением на основе обратной связи от человека (RLHF) стало критическим подходом для согласования больших языковых моделей с предпочтениями людей, наблюдая быструю эволюцию алгоритмов через методы, такие как Проксимальная оптимизация политики (PPO), Прямая оптимизация предпочтений (DPO), REINFORCE Leave One-Out (RLOO), ReMax и Относительная оптимизация политики группы (GRPO). Мы представляем REINFORCE++, улучшенную вариацию классического алгоритма REINFORCE, которая включает ключевые методы оптимизации из PPO, устраняя при этом необходимость в сети критика. REINFORCE++ достигает трех основных целей: (1) простота, (2) улучшенная стабильность обучения и (3) снижение вычислительной нагрузки. Через обширное эмпирическое оценивание мы демонстрируем, что REINFORCE++ обладает более высокой стабильностью по сравнению с GRPO и достигает большей вычислительной эффективности, чем PPO, сохраняя при этом сопоставимую производительность. Реализация доступна по ссылке https://github.com/OpenRLHF/OpenRLHF.