ChatPaper.aiChatPaper

Estabilizando RLHF por meio de Modelo de Vantagem e Revisão Seletiva

Stabilizing RLHF through Advantage Model and Selective Rehearsal

September 18, 2023
Autores: Baolin Peng, Linfeng Song, Ye Tian, Lifeng Jin, Haitao Mi, Dong Yu
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o processamento de linguagem natural, mas alinhar esses modelos com valores e preferências humanas usando Aprendizado por Reforço com Feedback Humano (RLHF) continua sendo um desafio significativo. Esse desafio é caracterizado por várias instabilidades, como o hacking de recompensas e o esquecimento catastrófico. Neste relatório técnico, propomos duas inovações para estabilizar o treinamento de RLHF: 1) o Modelo de Vantagem, que modela diretamente a pontuação de vantagem, ou seja, a recompensa extra em comparação com as recompensas esperadas, e regula as distribuições de pontuação entre tarefas para prevenir o hacking de recompensas; 2) a Revisão Seletiva, que mitiga o esquecimento catastrófico ao selecionar estrategicamente dados para o treinamento de Otimização de Políticas Proximais (PPO) e a revisão de conhecimento. Nossa análise experimental em conjuntos de dados públicos e proprietários revela que os métodos propostos não apenas aumentam a estabilidade no treinamento de RLHF, mas também alcançam pontuações de recompensa e taxas de vitória mais altas.
English
Large Language Models (LLMs) have revolutionized natural language processing, yet aligning these models with human values and preferences using RLHF remains a significant challenge. This challenge is characterized by various instabilities, such as reward hacking and catastrophic forgetting. In this technical report, we propose two innovations to stabilize RLHF training: 1) Advantage Model, which directly models advantage score i.e., extra reward compared to the expected rewards and regulates score distributions across tasks to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic forgetting by strategically selecting data for PPO training and knowledge rehearsing. Our experimental analysis on public and proprietary datasets reveals that the proposed methods not only increase stability in RLHF training but also achieve higher reward scores and win rates.
PDF111February 6, 2026