Geheimen van RLHF in Grote Taalmodellen Deel I: PPO
Secrets of RLHF in Large Language Models Part I: PPO
July 11, 2023
Auteurs: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben een blauwdruk geformuleerd voor de vooruitgang van kunstmatige algemene intelligentie. Het primaire doel is om te functioneren als een mensgerichte (behulpzame, eerlijke en onschadelijke) assistent. Afstemming met mensen neemt een uiterst belangrijke plaats in, en reinforcement learning met menselijke feedback (RLHF) komt naar voren als het cruciale technologische paradigma dat deze inspanning ondersteunt. Huidige technische routes omvatten meestal beloningsmodellen om menselijke voorkeuren te meten, Proximal Policy Optimization (PPO) om de uitvoer van beleidsmodellen te optimaliseren, en procesbegeleiding om stapsgewijze redeneervaardigheden te verbeteren. Echter, vanwege de uitdagingen van beloningsontwerp, omgevingsinteractie en agenttraining, in combinatie met de enorme trial-and-error-kosten van grote taalmodellen, is er een aanzienlijke barrière voor AI-onderzoekers om de ontwikkeling van technische afstemming en veilige implementatie van LLMs te stimuleren. De stabiele training van RLHF blijft een raadsel. In het eerste rapport ontleden we het framework van RLHF, her-evalueren we de interne werking van PPO, en onderzoeken we hoe de onderdelen die de PPO-algoritmen vormen, de training van beleidsagenten beïnvloeden. We identificeren beleidsbeperkingen als de sleutelfactor voor de effectieve implementatie van het PPO-algoritme. Daarom onderzoeken we de PPO-max, een geavanceerde versie van het PPO-algoritme, om de trainingsstabiliteit van het beleidsmodel efficiënt te verbeteren. Op basis van onze belangrijkste resultaten voeren we een uitgebreide analyse uit van de RLHF-vaardigheden in vergelijking met SFT-modellen en ChatGPT. Het ontbreken van open-source-implementaties heeft aanzienlijke uitdagingen opgeleverd voor het onderzoek naar de afstemming van LLMs. Daarom zijn we verheugd om technische rapporten, beloningsmodellen en PPO-codes vrij te geven.
English
Large language models (LLMs) have formulated a blueprint for the advancement
of artificial general intelligence. Its primary objective is to function as a
human-centric (helpful, honest, and harmless) assistant. Alignment with humans
assumes paramount significance, and reinforcement learning with human feedback
(RLHF) emerges as the pivotal technological paradigm underpinning this pursuit.
Current technical routes usually include reward models to measure
human preferences, Proximal Policy Optimization (PPO) to optimize
policy model outputs, and process supervision to improve step-by-step
reasoning capabilities. However, due to the challenges of reward design,
environment interaction, and agent training, coupled with huge trial and error
cost of large language models, there is a significant barrier for AI
researchers to motivate the development of technical alignment and safe landing
of LLMs. The stable training of RLHF has still been a puzzle. In the first
report, we dissect the framework of RLHF, re-evaluate the inner workings of
PPO, and explore how the parts comprising PPO algorithms impact policy agent
training. We identify policy constraints being the key factor for the effective
implementation of the PPO algorithm. Therefore, we explore the PPO-max, an
advanced version of PPO algorithm, to efficiently improve the training
stability of the policy model. Based on our main results, we perform a
comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT.
The absence of open-source implementations has posed significant challenges to
the investigation of LLMs alignment. Therefore, we are eager to release
technical reports, reward models and PPO codes