ChatPaper.aiChatPaper

Secretos del Aprendizaje por Refuerzo con Retroalimentación Humana en Modelos de Lenguaje a Gran Escala Parte I: PPO

Secrets of RLHF in Large Language Models Part I: PPO

July 11, 2023
Autores: Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han establecido un plan para el avance de la inteligencia artificial general. Su objetivo principal es funcionar como un asistente centrado en el ser humano (útil, honesto e inofensivo). La alineación con los humanos adquiere una importancia primordial, y el aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) surge como el paradigma tecnológico clave que sustenta este objetivo. Las rutas técnicas actuales suelen incluir modelos de recompensa para medir las preferencias humanas, la Optimización de Políticas Proximales (PPO, por sus siglas en inglés) para optimizar las salidas del modelo de políticas, y la supervisión de procesos para mejorar las capacidades de razonamiento paso a paso. Sin embargo, debido a los desafíos del diseño de recompensas, la interacción con el entorno y el entrenamiento de agentes, junto con los enormes costos de prueba y error de los modelos de lenguaje de gran escala, existe una barrera significativa para que los investigadores de IA impulsen el desarrollo de la alineación técnica y el aterrizaje seguro de los LLMs. El entrenamiento estable de RLHF sigue siendo un enigma. En el primer informe, analizamos el marco de RLHF, reevaluamos el funcionamiento interno de PPO y exploramos cómo los componentes que conforman los algoritmos PPO impactan en el entrenamiento de los agentes de políticas. Identificamos que las restricciones de políticas son el factor clave para la implementación efectiva del algoritmo PPO. Por lo tanto, exploramos el PPO-max, una versión avanzada del algoritmo PPO, para mejorar eficientemente la estabilidad del entrenamiento del modelo de políticas. Basándonos en nuestros principales resultados, realizamos un análisis exhaustivo de las capacidades de RLHF en comparación con los modelos SFT y ChatGPT. La ausencia de implementaciones de código abierto ha planteado desafíos significativos para la investigación de la alineación de los LLMs. Por ello, estamos ansiosos por publicar informes técnicos, modelos de recompensa y códigos de PPO.
English
Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include reward models to measure human preferences, Proximal Policy Optimization (PPO) to optimize policy model outputs, and process supervision to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes
PDF291December 15, 2024