Stabilisatie van RLHF via het Advantage Model en Selectieve Herhaling

Samenvatting

Grote Taalmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking, maar het afstemmen van deze modellen op menselijke waarden en voorkeuren met behulp van Reinforcement Learning from Human Feedback (RLHF) blijft een aanzienlijke uitdaging. Deze uitdaging wordt gekenmerkt door diverse instabiliteiten, zoals reward hacking en catastrofaal vergeten. In dit technische rapport stellen we twee innovaties voor om de RLHF-training te stabiliseren: 1) het Voordeelmodel, dat direct de voordeelscore modelleert, d.w.z. de extra beloning in vergelijking met de verwachte beloningen, en de scoreverdelingen over taken reguleert om reward hacking te voorkomen. 2) Selectieve Herhaling, die catastrofaal vergeten vermindert door strategisch gegevens te selecteren voor PPO-training en kennisherhaling. Onze experimentele analyse op openbare en propriëtaire datasets toont aan dat de voorgestelde methoden niet alleen de stabiliteit in RLHF-training vergroten, maar ook hogere beloningsscores en winpercentages behalen.

English

Large Language Models (LLMs) have revolutionized natural language processing, yet aligning these models with human values and preferences using RLHF remains a significant challenge. This challenge is characterized by various instabilities, such as reward hacking and catastrophic forgetting. In this technical report, we propose two innovations to stabilize RLHF training: 1) Advantage Model, which directly models advantage score i.e., extra reward compared to the expected rewards and regulates score distributions across tasks to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic forgetting by strategically selecting data for PPO training and knowledge rehearsing. Our experimental analysis on public and proprietary datasets reveals that the proposed methods not only increase stability in RLHF training but also achieve higher reward scores and win rates.

Stabilisatie van RLHF via het Advantage Model en Selectieve Herhaling

Stabilizing RLHF through Advantage Model and Selective Rehearsal

Samenvatting

Support