Ottimizzazione Robusta delle Preferenze con Auto-Miglioramento

Abstract

Sia i metodi online che offline di RLHF come PPO e DPO hanno avuto un enorme successo nell'allineare l'IA alle preferenze umane. Nonostante il loro successo, i metodi esistenti soffrono di un problema fondamentale: la loro soluzione ottimale è altamente dipendente dal compito (cioè, non è robusta rispetto a compiti fuori distribuzione, OOD). Qui affrontiamo questa sfida proponendo Self-Improving Robust Preference Optimization (SRPO), un framework pratico e matematicamente fondato di RLHF offline che è completamente robusto ai cambiamenti del compito. L'idea chiave di SRPO è formulare il problema dell'apprendimento dalle preferenze umane come un processo di auto-miglioramento, che può essere espresso matematicamente in termini di un obiettivo min-max che mira all'ottimizzazione congiunta della politica di auto-miglioramento e della politica generativa in modo avversariale. La soluzione di questo problema di ottimizzazione è indipendente dal compito di addestramento e quindi è robusta ai suoi cambiamenti. Mostriamo poi che questo obiettivo può essere riformulato nella forma di una perdita offline non avversariale che può essere ottimizzata utilizzando tecniche standard di ottimizzazione supervisionata su larga scala, senza la necessità di un modello di ricompensa e di inferenza online. Dimostriamo l'efficacia di SRPO in termini di AI Win-Rate (WR) rispetto alle completazioni umane (GOLD). In particolare, quando SRPO viene valutato sul dataset OOD XSUM, supera il rinomato DPO con un margine chiaro del 15% dopo 5 auto-revisioni, raggiungendo un WR del 90%.

English

Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%.