Leer uw referentiemodel voor echt goede afstemming
Learn Your Reference Model for Real Good Alignment
April 15, 2024
Auteurs: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI
Samenvatting
De complexiteit van het uitlijningsprobleem komt voort uit het feit dat bestaande methoden instabiel zijn. Onderzoekers bedenken voortdurend verschillende trucs om dit tekort aan te pakken. Bijvoorbeeld, in de fundamentele techniek van Reinforcement Learning From Human Feedback (RLHF) voor het uitlijnen van taalmodel, wordt naast het maximaliseren van de beloning ook de Kullback-Leibler-divergentie tussen het trainbare beleid en het SFT-beleid geminimaliseerd. Deze toevoeging voorkomt dat het model overfit raakt op het Beloningsmodel (RM) en teksten genereert die buiten het domein van het RM vallen. De Direct Preference Optimization (DPO)-methode herformuleert de optimalisatietaak van RLHF en elimineert het Beloningsmodel, terwijl impliciet de eis wordt gehandhaafd dat het beleid dicht bij het SFT-beleid blijft. In ons artikel betogen we dat deze impliciete beperking in de DPO-methode leidt tot suboptimale resultaten. Wij stellen een nieuwe methode voor genaamd Trust Region DPO (TR-DPO), die het referentiebeleid tijdens de training bijwerkt. Met zo'n eenvoudige update demonstreren we de effectiviteit van TR-DPO ten opzichte van DPO op de Anthropic HH- en TLDR-datasets. We laten zien dat TR-DPO DPO met tot wel 19% overtreft, gemeten door automatische evaluatie met GPT-4. De nieuwe uitlijningsaanpak die wij voorstellen stelt ons in staat om de kwaliteit van modellen op verschillende parameters tegelijk te verbeteren, zoals samenhang, correctheid, detailniveau, behulpzaamheid en onschadelijkheid.
English
The complexity of the alignment problem stems from the fact that existing
methods are unstable. Researchers continuously invent various tricks to address
this shortcoming. For instance, in the fundamental Reinforcement Learning From
Human Feedback (RLHF) technique of Language Model alignment, in addition to
reward maximization, the Kullback-Leibler divergence between the trainable
policy and the SFT policy is minimized. This addition prevents the model from
being overfitted to the Reward Model (RM) and generating texts that are
out-of-domain for the RM. The Direct Preference Optimization (DPO) method
reformulates the optimization task of RLHF and eliminates the Reward Model
while tacitly maintaining the requirement for the policy to be close to the SFT
policy. In our paper, we argue that this implicit limitation in the DPO method
leads to sub-optimal results. We propose a new method called Trust Region DPO
(TR-DPO), which updates the reference policy during training. With such a
straightforward update, we demonstrate the effectiveness of TR-DPO against DPO
on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by
up to 19%, measured by automatic evaluation with GPT-4. The new alignment
approach that we propose allows us to improve the quality of models across
several parameters at once, such as coherence, correctness, level of detail,
helpfulness, and harmlessness.