Lernen Sie Ihr Referenzmodell für eine wirklich gute Ausrichtung.
Learn Your Reference Model for Real Good Alignment
April 15, 2024
Autoren: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI
Zusammenfassung
Die Komplexität des Ausrichtungsproblems ergibt sich aus der Tatsache, dass bestehende Methoden instabil sind. Forscher erfinden kontinuierlich verschiedene Tricks, um diesem Mangel abzuhelfen. Zum Beispiel wird in der grundlegenden Technik des Reinforcement Learning From Human Feedback (RLHF) der Sprachmodellausrichtung neben der Belohnungsmaximierung die Kullback-Leibler-Divergenz zwischen der trainierbaren Richtlinie und der SFT-Richtlinie minimiert. Diese Ergänzung verhindert, dass das Modell zu stark an das Belohnungsmodell (RM) angepasst wird und Texte erzeugt, die für das RM außerhalb des Anwendungsbereichs liegen. Die Methode der direkten Präferenzoptimierung (DPO) reformuliert die Optimierungsaufgabe des RLHF und beseitigt das Belohnungsmodell, während implizit die Anforderung aufrechterhalten wird, dass die Richtlinie der SFT-Richtlinie nahekommen soll. In unserem Paper argumentieren wir, dass diese implizite Einschränkung in der DPO-Methode zu suboptimalen Ergebnissen führt. Wir schlagen eine neue Methode namens Trust Region DPO (TR-DPO) vor, die die Referenzrichtlinie während des Trainings aktualisiert. Mit einem solch einfachen Update zeigen wir die Wirksamkeit von TR-DPO gegenüber DPO anhand der Anthropic HH- und TLDR-Datensätze. Wir zeigen, dass TR-DPO DPO um bis zu 19% übertrifft, gemessen durch automatische Bewertung mit GPT-4. Der neue Ausrichtungsansatz, den wir vorschlagen, ermöglicht es uns, die Qualität von Modellen gleichzeitig über mehrere Parameter hinweg zu verbessern, wie Kohärenz, Korrektheit, Detailgrad, Hilfreichkeit und Unschädlichkeit.
English
The complexity of the alignment problem stems from the fact that existing
methods are unstable. Researchers continuously invent various tricks to address
this shortcoming. For instance, in the fundamental Reinforcement Learning From
Human Feedback (RLHF) technique of Language Model alignment, in addition to
reward maximization, the Kullback-Leibler divergence between the trainable
policy and the SFT policy is minimized. This addition prevents the model from
being overfitted to the Reward Model (RM) and generating texts that are
out-of-domain for the RM. The Direct Preference Optimization (DPO) method
reformulates the optimization task of RLHF and eliminates the Reward Model
while tacitly maintaining the requirement for the policy to be close to the SFT
policy. In our paper, we argue that this implicit limitation in the DPO method
leads to sub-optimal results. We propose a new method called Trust Region DPO
(TR-DPO), which updates the reference policy during training. With such a
straightforward update, we demonstrate the effectiveness of TR-DPO against DPO
on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by
up to 19%, measured by automatic evaluation with GPT-4. The new alignment
approach that we propose allows us to improve the quality of models across
several parameters at once, such as coherence, correctness, level of detail,
helpfulness, and harmlessness.Summary
AI-Generated Summary