大規模言語モデルにおけるRLHFの秘密 パートI: PPO
Secrets of RLHF in Large Language Models Part I: PPO
July 11, 2023
著者: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
cs.AI
要旨
大規模言語モデル(LLM)は、人工汎用知能の進化に向けた青写真を提示してきた。その主な目的は、人間中心(役立つ、正直で、無害)のアシスタントとして機能することである。人間との整合性は極めて重要であり、人間のフィードバックを用いた強化学習(RLHF)が、この追求を支える重要な技術的パラダイムとして浮上している。現在の技術的アプローチは通常、人間の嗜好を測定するための報酬モデル、ポリシーモデルの出力を最適化するための近接方策最適化(PPO)、そして段階的な推論能力を向上させるためのプロセス監視を含む。しかし、報酬設計、環境との相互作用、エージェントの訓練における課題に加え、大規模言語モデルの試行錯誤のコストが膨大であるため、AI研究者が技術的整合性とLLMの安全な着陸を促進するための開発を動機付けるには、大きな障壁が存在する。RLHFの安定した訓練は依然として未解決の問題である。最初のレポートでは、RLHFのフレームワークを分析し、PPOの内部動作を再評価し、PPOアルゴリズムを構成する各部分がポリシーエージェントの訓練にどのように影響するかを探る。我々は、PPOアルゴリズムの効果的な実装において、ポリシー制約が鍵となる要因であることを特定した。そこで、PPOの高度なバージョンであるPPO-maxを探求し、ポリシーモデルの訓練の安定性を効率的に向上させる。主要な結果に基づき、RLHFの能力をSFTモデルやChatGPTと比較して包括的に分析する。オープンソースの実装が存在しないことが、LLMの整合性の調査に大きな課題を投げかけている。そのため、技術レポート、報酬モデル、およびPPOコードを公開することを切望している。
English
Large language models (LLMs) have formulated a blueprint for the advancement
of artificial general intelligence. Its primary objective is to function as a
human-centric (helpful, honest, and harmless) assistant. Alignment with humans
assumes paramount significance, and reinforcement learning with human feedback
(RLHF) emerges as the pivotal technological paradigm underpinning this pursuit.
Current technical routes usually include reward models to measure
human preferences, Proximal Policy Optimization (PPO) to optimize
policy model outputs, and process supervision to improve step-by-step
reasoning capabilities. However, due to the challenges of reward design,
environment interaction, and agent training, coupled with huge trial and error
cost of large language models, there is a significant barrier for AI
researchers to motivate the development of technical alignment and safe landing
of LLMs. The stable training of RLHF has still been a puzzle. In the first
report, we dissect the framework of RLHF, re-evaluate the inner workings of
PPO, and explore how the parts comprising PPO algorithms impact policy agent
training. We identify policy constraints being the key factor for the effective
implementation of the PPO algorithm. Therefore, we explore the PPO-max, an
advanced version of PPO algorithm, to efficiently improve the training
stability of the policy model. Based on our main results, we perform a
comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT.
The absence of open-source implementations has posed significant challenges to
the investigation of LLMs alignment. Therefore, we are eager to release
technical reports, reward models and PPO codes