Segredos do RLHF em Modelos de Linguagem de Grande Escala Parte I: PPO

Resumo

Os modelos de linguagem de grande escala (LLMs) estabeleceram um plano para o avanço da inteligência artificial geral. Seu objetivo principal é funcionar como um assistente centrado no ser humano (útil, honesto e inofensivo). O alinhamento com os humanos assume uma importância primordial, e o aprendizado por reforço com feedback humano (RLHF) surge como o paradigma tecnológico fundamental que sustenta essa busca. As rotas técnicas atuais geralmente incluem modelos de recompensa para medir as preferências humanas, a Otimização de Política Proximal (PPO) para otimizar as saídas do modelo de política e a supervisão de processos para melhorar as capacidades de raciocínio passo a passo. No entanto, devido aos desafios de design de recompensa, interação com o ambiente e treinamento de agentes, somados ao alto custo de tentativa e erro dos modelos de linguagem de grande escala, há uma barreira significativa para os pesquisadores de IA motivarem o desenvolvimento do alinhamento técnico e da aterrissagem segura dos LLMs. O treinamento estável do RLHF ainda é um enigma. No primeiro relatório, dissecamos a estrutura do RLHF, reavaliamos o funcionamento interno do PPO e exploramos como os componentes que compõem os algoritmos PPO impactam o treinamento do agente de política. Identificamos que as restrições de política são o fator-chave para a implementação eficaz do algoritmo PPO. Portanto, exploramos o PPO-max, uma versão avançada do algoritmo PPO, para melhorar eficientemente a estabilidade do treinamento do modelo de política. Com base em nossos principais resultados, realizamos uma análise abrangente das capacidades do RLHF em comparação com modelos SFT e o ChatGPT. A ausência de implementações de código aberto tem imposto desafios significativos à investigação do alinhamento dos LLMs. Portanto, estamos ansiosos para liberar relatórios técnicos, modelos de recompensa e códigos PPO.

English

Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include reward models to measure human preferences, Proximal Policy Optimization (PPO) to optimize policy model outputs, and process supervision to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes

Segredos do RLHF em Modelos de Linguagem de Grande Escala Parte I: PPO

Secrets of RLHF in Large Language Models Part I: PPO

Resumo

Support