Секреты RLHF в больших языковых моделях. Часть I: PPO
Secrets of RLHF in Large Language Models Part I: PPO
July 11, 2023
Авторы: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
cs.AI
Аннотация
Крупные языковые модели (LLM) сформировали основу для продвижения в области искусственного общего интеллекта. Их главная цель — функционировать как помощник, ориентированный на человека (полезный, честный и безопасный). Согласование с человеческими ценностями приобретает первостепенное значение, а обучение с подкреплением на основе человеческой обратной связи (RLHF) становится ключевой технологической парадигмой, лежащей в основе этого стремления. Современные технические подходы обычно включают модели вознаграждения для измерения человеческих предпочтений, оптимизацию проксимальной политики (PPO) для оптимизации выходных данных модели политики и контроль процесса для улучшения пошаговых способностей к рассуждению. Однако из-за сложностей проектирования вознаграждений, взаимодействия с окружающей средой и обучения агентов, а также огромных затрат на метод проб и ошибок в крупных языковых моделях, перед исследователями ИИ стоит значительный барьер в мотивации развития технического согласования и безопасного внедрения LLM. Стабильное обучение RLHF до сих пор остается загадкой. В первом отчете мы анализируем структуру RLHF, переоцениваем внутренние механизмы PPO и исследуем, как компоненты, составляющие алгоритмы PPO, влияют на обучение агентов политики. Мы определяем ограничения политики как ключевой фактор для эффективной реализации алгоритма PPO. Поэтому мы исследуем PPO-max, усовершенствованную версию алгоритма PPO, чтобы эффективно повысить стабильность обучения модели политики. На основе наших основных результатов мы проводим всесторонний анализ возможностей RLHF в сравнении с моделями SFT и ChatGPT. Отсутствие открытых реализаций создало значительные трудности для исследования согласования LLM. Поэтому мы стремимся опубликовать технические отчеты, модели вознаграждения и коды PPO.
English
Large language models (LLMs) have formulated a blueprint for the advancement
of artificial general intelligence. Its primary objective is to function as a
human-centric (helpful, honest, and harmless) assistant. Alignment with humans
assumes paramount significance, and reinforcement learning with human feedback
(RLHF) emerges as the pivotal technological paradigm underpinning this pursuit.
Current technical routes usually include reward models to measure
human preferences, Proximal Policy Optimization (PPO) to optimize
policy model outputs, and process supervision to improve step-by-step
reasoning capabilities. However, due to the challenges of reward design,
environment interaction, and agent training, coupled with huge trial and error
cost of large language models, there is a significant barrier for AI
researchers to motivate the development of technical alignment and safe landing
of LLMs. The stable training of RLHF has still been a puzzle. In the first
report, we dissect the framework of RLHF, re-evaluate the inner workings of
PPO, and explore how the parts comprising PPO algorithms impact policy agent
training. We identify policy constraints being the key factor for the effective
implementation of the PPO algorithm. Therefore, we explore the PPO-max, an
advanced version of PPO algorithm, to efficiently improve the training
stability of the policy model. Based on our main results, we perform a
comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT.
The absence of open-source implementations has posed significant challenges to
the investigation of LLMs alignment. Therefore, we are eager to release
technical reports, reward models and PPO codes