Impara il Tuo Modello di Riferimento per un Allineamento Veramente Efficace
Learn Your Reference Model for Real Good Alignment
April 15, 2024
Autori: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI
Abstract
La complessità del problema dell'allineamento deriva dal fatto che i metodi esistenti sono instabili. I ricercatori inventano continuamente vari stratagemmi per affrontare questa carenza. Ad esempio, nella tecnica fondamentale del Reinforcement Learning From Human Feedback (RLHF) per l'allineamento dei modelli linguistici, oltre alla massimizzazione della ricompensa, viene minimizzata la divergenza di Kullback-Leibler tra la politica addestrabile e la politica SFT. Questa aggiunta impedisce al modello di sovraadattarsi al Modello di Ricompensa (RM) e di generare testi che sono fuori dominio per l'RM. Il metodo Direct Preference Optimization (DPO) riformula il compito di ottimizzazione dell'RLHF ed elimina il Modello di Ricompensa, mantenendo implicitamente il requisito che la politica sia vicina alla politica SFT. Nel nostro articolo, sosteniamo che questa limitazione implicita nel metodo DPO porta a risultati subottimali. Proponiamo un nuovo metodo chiamato Trust Region DPO (TR-DPO), che aggiorna la politica di riferimento durante l'addestramento. Con un aggiornamento così diretto, dimostriamo l'efficacia di TR-DPO rispetto a DPO sui dataset Anthropic HH e TLDR. Mostriamo che TR-DPO supera DPO fino al 19%, misurato tramite valutazione automatica con GPT-4. Il nuovo approccio di allineamento che proponiamo ci consente di migliorare la qualità dei modelli su diversi parametri contemporaneamente, come coerenza, correttezza, livello di dettaglio, utilità e innocuità.
English
The complexity of the alignment problem stems from the fact that existing
methods are unstable. Researchers continuously invent various tricks to address
this shortcoming. For instance, in the fundamental Reinforcement Learning From
Human Feedback (RLHF) technique of Language Model alignment, in addition to
reward maximization, the Kullback-Leibler divergence between the trainable
policy and the SFT policy is minimized. This addition prevents the model from
being overfitted to the Reward Model (RM) and generating texts that are
out-of-domain for the RM. The Direct Preference Optimization (DPO) method
reformulates the optimization task of RLHF and eliminates the Reward Model
while tacitly maintaining the requirement for the policy to be close to the SFT
policy. In our paper, we argue that this implicit limitation in the DPO method
leads to sub-optimal results. We propose a new method called Trust Region DPO
(TR-DPO), which updates the reference policy during training. With such a
straightforward update, we demonstrate the effectiveness of TR-DPO against DPO
on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by
up to 19%, measured by automatic evaluation with GPT-4. The new alignment
approach that we propose allows us to improve the quality of models across
several parameters at once, such as coherence, correctness, level of detail,
helpfulness, and harmlessness.