Optimización Robusta de Preferencias con Automejora
Self-Improving Robust Preference Optimization
June 3, 2024
Autores: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
cs.AI
Resumen
Tanto los métodos de RLHF (Alineación de Preferencias Humanas mediante Aprendizaje por Refuerzo) en línea como fuera de línea, como PPO y DPO, han sido extremadamente exitosos en alinear la IA con las preferencias humanas. A pesar de su éxito, los métodos existentes sufren de un problema fundamental: su solución óptima es altamente dependiente de la tarea (es decir, no son robustos ante tareas fuera de distribución, OOD). Aquí abordamos este desafío proponiendo SRPO (Optimización Robusta de Preferencias con Auto-mejora), un marco práctico y matemáticamente fundamentado de RLHF fuera de línea que es completamente robusto a los cambios en la tarea. La idea clave de SRPO es plantear el problema de aprender a partir de preferencias humanas como un proceso de auto-mejora, que puede expresarse matemáticamente en términos de un objetivo min-max que busca la optimización conjunta de la política de auto-mejora y la política generativa de manera adversarial. La solución para este problema de optimización es independiente de la tarea de entrenamiento y, por lo tanto, es robusta a sus cambios. Luego demostramos que este objetivo puede reformularse en la forma de una pérdida fuera de línea no adversarial, que puede optimizarse utilizando técnicas estándar de optimización supervisada a gran escala, sin necesidad de un modelo de recompensa ni inferencia en línea. Mostramos la efectividad de SRPO en términos de la Tasa de Victoria de la IA (WR) frente a completaciones humanas (GOLD). En particular, cuando SRPO se evalúa en el conjunto de datos OOD XSUM, supera al reconocido DPO por un claro margen del 15% después de 5 auto-revisiones, alcanzando una WR del 90%.
English
Both online and offline RLHF methods such as PPO and DPO have been extremely
successful in aligning AI with human preferences. Despite their success, the
existing methods suffer from a fundamental problem that their optimal solution
is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks).
Here we address this challenge by proposing Self-Improving Robust Preference
Optimization SRPO, a practical and mathematically principled offline RLHF
framework that is completely robust to the changes in the task. The key idea of
SRPO is to cast the problem of learning from human preferences as a
self-improvement process, which can be mathematically expressed in terms of a
min-max objective that aims at joint optimization of self-improvement policy
and the generative policy in an adversarial fashion. The solution for this
optimization problem is independent of the training task and thus it is robust
to its changes. We then show that this objective can be re-expressed in the
form of a non-adversarial offline loss which can be optimized using standard
supervised optimization techniques at scale without any need for reward model
and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate
(WR) against human (GOLD) completions. In particular, when SRPO is evaluated on
the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of
15% after 5 self-revisions, achieving WR of 90%.Summary
AI-Generated Summary