Stabilisatie van RLHF via het Advantage Model en Selectieve Herhaling
Stabilizing RLHF through Advantage Model and Selective Rehearsal
September 18, 2023
Auteurs: Baolin Peng, Linfeng Song, Ye Tian, Lifeng Jin, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking, maar het afstemmen van deze modellen op menselijke waarden en voorkeuren met behulp van Reinforcement Learning from Human Feedback (RLHF) blijft een aanzienlijke uitdaging. Deze uitdaging wordt gekenmerkt door diverse instabiliteiten, zoals reward hacking en catastrofaal vergeten. In dit technische rapport stellen we twee innovaties voor om de RLHF-training te stabiliseren: 1) het Voordeelmodel, dat direct de voordeelscore modelleert, d.w.z. de extra beloning in vergelijking met de verwachte beloningen, en de scoreverdelingen over taken reguleert om reward hacking te voorkomen. 2) Selectieve Herhaling, die catastrofaal vergeten vermindert door strategisch gegevens te selecteren voor PPO-training en kennisherhaling. Onze experimentele analyse op openbare en propriëtaire datasets toont aan dat de voorgestelde methoden niet alleen de stabiliteit in RLHF-training vergroten, maar ook hogere beloningsscores en winpercentages behalen.
English
Large Language Models (LLMs) have revolutionized natural language processing,
yet aligning these models with human values and preferences using RLHF remains
a significant challenge. This challenge is characterized by various
instabilities, such as reward hacking and catastrophic forgetting. In this
technical report, we propose two innovations to stabilize RLHF training: 1)
Advantage Model, which directly models advantage score i.e., extra reward
compared to the expected rewards and regulates score distributions across tasks
to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic
forgetting by strategically selecting data for PPO training and knowledge
rehearsing. Our experimental analysis on public and proprietary datasets
reveals that the proposed methods not only increase stability in RLHF training
but also achieve higher reward scores and win rates.