Zelfverbeterende Robuuste Voorkeursoptimalisatie
Self-Improving Robust Preference Optimization
June 3, 2024
Auteurs: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
cs.AI
Samenvatting
Zowel online als offline RLHF-methoden zoals PPO en DPO zijn buitengewoon succesvol geweest in het afstemmen van AI op menselijke voorkeuren. Ondanks hun succes kampen de bestaande methoden met een fundamenteel probleem: hun optimale oplossing is sterk taakafhankelijk (d.w.z. niet robuust tegen taken buiten de verdeling (OOD)). Hier gaan we deze uitdaging aan door Self-Improving Robust Preference Optimization (SRPO) voor te stellen, een praktisch en wiskundig onderbouwd offline RLHF-raamwerk dat volledig robuust is tegen veranderingen in de taak. De kern van SRPO is het formuleren van het probleem van leren van menselijke voorkeuren als een zelfverbeteringsproces, wat wiskundig kan worden uitgedrukt in termen van een min-max-doelstelling die streeft naar gezamenlijke optimalisatie van het zelfverbeteringsbeleid en het generatieve beleid op een adversariële manier. De oplossing voor dit optimalisatieprobleem is onafhankelijk van de trainingstaak en is daarom robuust tegen veranderingen ervan. Vervolgens laten we zien dat deze doelstelling kan worden herschreven in de vorm van een niet-adversariële offline verliesfunctie die op grote schaal kan worden geoptimaliseerd met behulp van standaard supervised optimalisatietechnieken, zonder dat een beloningsmodel of online inferentie nodig is. We tonen de effectiviteit van SRPO aan in termen van AI Win-Rate (WR) tegen menselijke (GOLD) voltooiingen. In het bijzonder, wanneer SRPO wordt geëvalueerd op de OOD XSUM-dataset, overtreft het de geroemde DPO met een duidelijke marge van 15% na 5 zelfrevisies, waarbij een WR van 90% wordt bereikt.
English
Both online and offline RLHF methods such as PPO and DPO have been extremely
successful in aligning AI with human preferences. Despite their success, the
existing methods suffer from a fundamental problem that their optimal solution
is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks).
Here we address this challenge by proposing Self-Improving Robust Preference
Optimization SRPO, a practical and mathematically principled offline RLHF
framework that is completely robust to the changes in the task. The key idea of
SRPO is to cast the problem of learning from human preferences as a
self-improvement process, which can be mathematically expressed in terms of a
min-max objective that aims at joint optimization of self-improvement policy
and the generative policy in an adversarial fashion. The solution for this
optimization problem is independent of the training task and thus it is robust
to its changes. We then show that this objective can be re-expressed in the
form of a non-adversarial offline loss which can be optimized using standard
supervised optimization techniques at scale without any need for reward model
and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate
(WR) against human (GOLD) completions. In particular, when SRPO is evaluated on
the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of
15% after 5 self-revisions, achieving WR of 90%.