ChatPaper.aiChatPaper

Geheimnisse von RLHF in großen Sprachmodellen Teil I: PPO

Secrets of RLHF in Large Language Models Part I: PPO

July 11, 2023
Autoren: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben einen Fahrplan für die Weiterentwicklung der künstlichen allgemeinen Intelligenz (AGI) formuliert. Ihr primäres Ziel ist es, als menschenzentrierter (hilfreicher, ehrlicher und harmloser) Assistent zu fungieren. Die Ausrichtung auf den Menschen nimmt dabei eine zentrale Bedeutung ein, und das Verstärkungslernen mit menschlichem Feedback (Reinforcement Learning with Human Feedback, RLHF) stellt das entscheidende technologische Paradigma dar, das dieses Bestreben untermauert. Aktuelle technische Ansätze umfassen in der Regel Belohnungsmodelle zur Messung menschlicher Präferenzen, Proximale Policy-Optimierung (PPO) zur Optimierung der Ausgaben des Policy-Modells sowie Prozessüberwachung zur Verbesserung der schrittweisen Argumentationsfähigkeiten. Aufgrund der Herausforderungen bei der Gestaltung von Belohnungen, der Interaktion mit der Umgebung und dem Training von Agenten, gepaart mit den hohen Versuchs- und Fehlerkosten großer Sprachmodelle, besteht jedoch eine erhebliche Hürde für KI-Forscher, die Entwicklung technischer Ausrichtung und die sichere Implementierung von LLMs voranzutreiben. Das stabile Training von RLHF bleibt nach wie vor ein Rätsel. Im ersten Bericht analysieren wir das RLHF-Framework, bewerten die internen Abläufe von PPO neu und untersuchen, wie die Komponenten des PPO-Algorithmus das Training von Policy-Agenten beeinflussen. Wir identifizieren Policy-Beschränkungen als den Schlüsselfaktor für die effektive Implementierung des PPO-Algorithmus. Daher untersuchen wir PPO-max, eine erweiterte Version des PPO-Algorithmus, um die Trainingsstabilität des Policy-Modells effizient zu verbessern. Basierend auf unseren Hauptergebnissen führen wir eine umfassende Analyse der Fähigkeiten von RLHF im Vergleich zu SFT-Modellen und ChatGPT durch. Das Fehlen von Open-Source-Implementierungen hat die Erforschung der Ausrichtung von LLMs erheblich erschwert. Daher sind wir bestrebt, technische Berichte, Belohnungsmodelle und PPO-Codes zu veröffentlichen.
English
Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include reward models to measure human preferences, Proximal Policy Optimization (PPO) to optimize policy model outputs, and process supervision to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes
PDF291December 15, 2024