Lernen Sie Ihr Referenzmodell für eine wirklich gute Ausrichtung.Learn Your Reference Model for Real Good Alignment
Die Komplexität des Ausrichtungsproblems ergibt sich aus der Tatsache, dass bestehende Methoden instabil sind. Forscher erfinden kontinuierlich verschiedene Tricks, um diesem Mangel abzuhelfen. Zum Beispiel wird in der grundlegenden Technik des Reinforcement Learning From Human Feedback (RLHF) der Sprachmodellausrichtung neben der Belohnungsmaximierung die Kullback-Leibler-Divergenz zwischen der trainierbaren Richtlinie und der SFT-Richtlinie minimiert. Diese Ergänzung verhindert, dass das Modell zu stark an das Belohnungsmodell (RM) angepasst wird und Texte erzeugt, die für das RM außerhalb des Anwendungsbereichs liegen. Die Methode der direkten Präferenzoptimierung (DPO) reformuliert die Optimierungsaufgabe des RLHF und beseitigt das Belohnungsmodell, während implizit die Anforderung aufrechterhalten wird, dass die Richtlinie der SFT-Richtlinie nahekommen soll. In unserem Paper argumentieren wir, dass diese implizite Einschränkung in der DPO-Methode zu suboptimalen Ergebnissen führt. Wir schlagen eine neue Methode namens Trust Region DPO (TR-DPO) vor, die die Referenzrichtlinie während des Trainings aktualisiert. Mit einem solch einfachen Update zeigen wir die Wirksamkeit von TR-DPO gegenüber DPO anhand der Anthropic HH- und TLDR-Datensätze. Wir zeigen, dass TR-DPO DPO um bis zu 19% übertrifft, gemessen durch automatische Bewertung mit GPT-4. Der neue Ausrichtungsansatz, den wir vorschlagen, ermöglicht es uns, die Qualität von Modellen gleichzeitig über mehrere Parameter hinweg zu verbessern, wie Kohärenz, Korrektheit, Detailgrad, Hilfreichkeit und Unschädlichkeit.