Segreti del RLHF nei Modelli Linguistici di Grandi Dimensioni Parte I: PPO

Abstract

I grandi modelli linguistici (LLM) hanno delineato un progetto per l'avanzamento dell'intelligenza artificiale generale. Il loro obiettivo principale è funzionare come assistenti centrati sull'uomo (utili, onesti e innocui). L'allineamento con gli esseri umani assume un'importanza fondamentale, e l'apprendimento per rinforzo con feedback umano (RLHF) emerge come il paradigma tecnologico chiave che sostiene questa ricerca. Le attuali strade tecniche includono generalmente modelli di ricompensa per misurare le preferenze umane, l'ottimizzazione delle politiche prossimali (PPO) per ottimizzare gli output del modello di politica, e la supervisione del processo per migliorare le capacità di ragionamento passo-passo. Tuttavia, a causa delle sfide legate alla progettazione delle ricompense, all'interazione con l'ambiente e all'addestramento degli agenti, unitamente agli enormi costi di prova ed errore dei grandi modelli linguistici, esiste una barriera significativa per i ricercatori di IA nel motivare lo sviluppo dell'allineamento tecnico e dell'atterraggio sicuro degli LLM. L'addestramento stabile dell'RLHF rimane ancora un enigma. Nel primo rapporto, analizziamo il framework dell'RLHF, rivalutiamo il funzionamento interno del PPO e esploriamo come le parti che compongono gli algoritmi PPO influenzano l'addestramento degli agenti di politica. Identifichiamo i vincoli di politica come il fattore chiave per l'implementazione efficace dell'algoritmo PPO. Pertanto, esploriamo il PPO-max, una versione avanzata dell'algoritmo PPO, per migliorare in modo efficiente la stabilità dell'addestramento del modello di politica. Sulla base dei nostri principali risultati, eseguiamo un'analisi completa delle capacità dell'RLHF rispetto ai modelli SFT e ChatGPT. L'assenza di implementazioni open-source ha posto sfide significative all'indagine sull'allineamento degli LLM. Pertanto, siamo desiderosi di rilasciare rapporti tecnici, modelli di ricompensa e codici PPO.

English

Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include reward models to measure human preferences, Proximal Policy Optimization (PPO) to optimize policy model outputs, and process supervision to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes

Segreti del RLHF nei Modelli Linguistici di Grandi Dimensioni Parte I: PPO

Secrets of RLHF in Large Language Models Part I: PPO

Abstract

Support