Ottimizzazione Robusta delle Preferenze con Auto-Miglioramento
Self-Improving Robust Preference Optimization
June 3, 2024
Autori: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
cs.AI
Abstract
Sia i metodi online che offline di RLHF come PPO e DPO hanno avuto un enorme successo nell'allineare l'IA alle preferenze umane. Nonostante il loro successo, i metodi esistenti soffrono di un problema fondamentale: la loro soluzione ottimale è altamente dipendente dal compito (cioè, non è robusta rispetto a compiti fuori distribuzione, OOD). Qui affrontiamo questa sfida proponendo Self-Improving Robust Preference Optimization (SRPO), un framework pratico e matematicamente fondato di RLHF offline che è completamente robusto ai cambiamenti del compito. L'idea chiave di SRPO è formulare il problema dell'apprendimento dalle preferenze umane come un processo di auto-miglioramento, che può essere espresso matematicamente in termini di un obiettivo min-max che mira all'ottimizzazione congiunta della politica di auto-miglioramento e della politica generativa in modo avversariale. La soluzione di questo problema di ottimizzazione è indipendente dal compito di addestramento e quindi è robusta ai suoi cambiamenti. Mostriamo poi che questo obiettivo può essere riformulato nella forma di una perdita offline non avversariale che può essere ottimizzata utilizzando tecniche standard di ottimizzazione supervisionata su larga scala, senza la necessità di un modello di ricompensa e di inferenza online. Dimostriamo l'efficacia di SRPO in termini di AI Win-Rate (WR) rispetto alle completazioni umane (GOLD). In particolare, quando SRPO viene valutato sul dataset OOD XSUM, supera il rinomato DPO con un margine chiaro del 15% dopo 5 auto-revisioni, raggiungendo un WR del 90%.
English
Both online and offline RLHF methods such as PPO and DPO have been extremely
successful in aligning AI with human preferences. Despite their success, the
existing methods suffer from a fundamental problem that their optimal solution
is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks).
Here we address this challenge by proposing Self-Improving Robust Preference
Optimization SRPO, a practical and mathematically principled offline RLHF
framework that is completely robust to the changes in the task. The key idea of
SRPO is to cast the problem of learning from human preferences as a
self-improvement process, which can be mathematically expressed in terms of a
min-max objective that aims at joint optimization of self-improvement policy
and the generative policy in an adversarial fashion. The solution for this
optimization problem is independent of the training task and thus it is robust
to its changes. We then show that this objective can be re-expressed in the
form of a non-adversarial offline loss which can be optimized using standard
supervised optimization techniques at scale without any need for reward model
and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate
(WR) against human (GOLD) completions. In particular, when SRPO is evaluated on
the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of
15% after 5 self-revisions, achieving WR of 90%.