Geheimen van RLHF in Grote Taalmodellen Deel I: PPO

Samenvatting

Grote taalmodellen (LLMs) hebben een blauwdruk geformuleerd voor de vooruitgang van kunstmatige algemene intelligentie. Het primaire doel is om te functioneren als een mensgerichte (behulpzame, eerlijke en onschadelijke) assistent. Afstemming met mensen neemt een uiterst belangrijke plaats in, en reinforcement learning met menselijke feedback (RLHF) komt naar voren als het cruciale technologische paradigma dat deze inspanning ondersteunt. Huidige technische routes omvatten meestal beloningsmodellen om menselijke voorkeuren te meten, Proximal Policy Optimization (PPO) om de uitvoer van beleidsmodellen te optimaliseren, en procesbegeleiding om stapsgewijze redeneervaardigheden te verbeteren. Echter, vanwege de uitdagingen van beloningsontwerp, omgevingsinteractie en agenttraining, in combinatie met de enorme trial-and-error-kosten van grote taalmodellen, is er een aanzienlijke barrière voor AI-onderzoekers om de ontwikkeling van technische afstemming en veilige implementatie van LLMs te stimuleren. De stabiele training van RLHF blijft een raadsel. In het eerste rapport ontleden we het framework van RLHF, her-evalueren we de interne werking van PPO, en onderzoeken we hoe de onderdelen die de PPO-algoritmen vormen, de training van beleidsagenten beïnvloeden. We identificeren beleidsbeperkingen als de sleutelfactor voor de effectieve implementatie van het PPO-algoritme. Daarom onderzoeken we de PPO-max, een geavanceerde versie van het PPO-algoritme, om de trainingsstabiliteit van het beleidsmodel efficiënt te verbeteren. Op basis van onze belangrijkste resultaten voeren we een uitgebreide analyse uit van de RLHF-vaardigheden in vergelijking met SFT-modellen en ChatGPT. Het ontbreken van open-source-implementaties heeft aanzienlijke uitdagingen opgeleverd voor het onderzoek naar de afstemming van LLMs. Daarom zijn we verheugd om technische rapporten, beloningsmodellen en PPO-codes vrij te geven.

English

Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include reward models to measure human preferences, Proximal Policy Optimization (PPO) to optimize policy model outputs, and process supervision to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes

Geheimen van RLHF in Grote Taalmodellen Deel I: PPO

Secrets of RLHF in Large Language Models Part I: PPO

Samenvatting

Support