ChatPaper.aiChatPaper

Estabilización de RLHF mediante Modelo de Ventaja y Reentrenamiento Selectivo

Stabilizing RLHF through Advantage Model and Selective Rehearsal

September 18, 2023
Autores: Baolin Peng, Linfeng Song, Ye Tian, Lifeng Jin, Haitao Mi, Dong Yu
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural, sin embargo, alinear estos modelos con los valores y preferencias humanas mediante el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) sigue siendo un desafío significativo. Este desafío se caracteriza por diversas inestabilidades, como el hackeo de recompensas y el olvido catastrófico. En este informe técnico, proponemos dos innovaciones para estabilizar el entrenamiento de RLHF: 1) el Modelo de Ventaja, que modela directamente la puntuación de ventaja, es decir, la recompensa adicional en comparación con las recompensas esperadas, y regula las distribuciones de puntuación entre tareas para prevenir el hackeo de recompensas. 2) la Revisión Selectiva, que mitiga el olvido catastrófico seleccionando estratégicamente datos para el entrenamiento de Optimización de Políticas Proximales (PPO, por sus siglas en inglés) y la revisión de conocimientos. Nuestro análisis experimental en conjuntos de datos públicos y propietarios revela que los métodos propuestos no solo aumentan la estabilidad en el entrenamiento de RLHF, sino que también logran puntuaciones de recompensa y tasas de victoria más altas.
English
Large Language Models (LLMs) have revolutionized natural language processing, yet aligning these models with human values and preferences using RLHF remains a significant challenge. This challenge is characterized by various instabilities, such as reward hacking and catastrophic forgetting. In this technical report, we propose two innovations to stabilize RLHF training: 1) Advantage Model, which directly models advantage score i.e., extra reward compared to the expected rewards and regulates score distributions across tasks to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic forgetting by strategically selecting data for PPO training and knowledge rehearsing. Our experimental analysis on public and proprietary datasets reveals that the proposed methods not only increase stability in RLHF training but also achieve higher reward scores and win rates.
PDF111December 15, 2024