Selbstverbessernde Robuste Präferenzoptimierung
Self-Improving Robust Preference Optimization
June 3, 2024
Autoren: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
cs.AI
Zusammenfassung
Sowohl Online- als auch Offline-RLHF-Methoden wie PPO und DPO waren äußerst erfolgreich darin, KI mit menschlichen Präferenzen in Einklang zu bringen. Trotz ihres Erfolgs leiden die bestehenden Methoden unter einem grundlegenden Problem, nämlich dass ihre optimale Lösung stark von der Aufgabe abhängt (d. h. nicht robust gegenüber Out-of-Distribution (OOD)-Aufgaben ist). Hier gehen wir auf diese Herausforderung ein, indem wir Self-Improving Robust Preference Optimization (SRPO) vorschlagen, ein praktisches und mathematisch fundiertes Offline-RLHF-Framework, das vollständig robust gegenüber Änderungen in der Aufgabe ist. Die Schlüsselidee von SRPO besteht darin, das Problem des Lernens aus menschlichen Präferenzen als einen Selbstverbesserungsprozess zu betrachten, der mathematisch als ein Min-Max-Optimierungsziel ausgedrückt werden kann, das auf die gemeinsame Optimierung der Selbstverbesserungspolitik und der generativen Politik in einem adversariellen Stil abzielt. Die Lösung für dieses Optimierungsproblem ist unabhängig von der Schulungsaufgabe und daher robust gegenüber deren Änderungen. Anschließend zeigen wir, dass dieses Ziel in Form eines nicht-adversariellen Offline-Verlusts umformuliert werden kann, der unter Verwendung von Standard-Supervised-Optimierungstechniken im großen Maßstab optimiert werden kann, ohne dass ein Belohnungsmodell und Online-Inferenz erforderlich sind. Wir zeigen die Wirksamkeit von SRPO in Bezug auf den KI-Sieganteil (WR) gegenüber menschlichen (GOLD) Abschlüssen. Insbesondere übertrifft SRPO bei der Auswertung des OOD XSUM-Datensatzes den gefeierten DPO nach 5 Selbstüberarbeitungen deutlich um 15%, wobei ein WR von 90% erreicht wird.
English
Both online and offline RLHF methods such as PPO and DPO have been extremely
successful in aligning AI with human preferences. Despite their success, the
existing methods suffer from a fundamental problem that their optimal solution
is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks).
Here we address this challenge by proposing Self-Improving Robust Preference
Optimization SRPO, a practical and mathematically principled offline RLHF
framework that is completely robust to the changes in the task. The key idea of
SRPO is to cast the problem of learning from human preferences as a
self-improvement process, which can be mathematically expressed in terms of a
min-max objective that aims at joint optimization of self-improvement policy
and the generative policy in an adversarial fashion. The solution for this
optimization problem is independent of the training task and thus it is robust
to its changes. We then show that this objective can be re-expressed in the
form of a non-adversarial offline loss which can be optimized using standard
supervised optimization techniques at scale without any need for reward model
and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate
(WR) against human (GOLD) completions. In particular, when SRPO is evaluated on
the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of
15% after 5 self-revisions, achieving WR of 90%.Summary
AI-Generated Summary