Optimización Directa de Nash: Enseñando a los Modelos de Lenguaje a Mejorarse con Preferencias Generales
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
April 4, 2024
Autores: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI
Resumen
Este artículo estudia el ajuste posterior de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) utilizando retroalimentación de preferencias de un oráculo poderoso para ayudar a un modelo a mejorar iterativamente sobre sí mismo. El enfoque típico para el ajuste posterior de LLMs implica el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés), que tradicionalmente separa el aprendizaje de recompensas y la posterior optimización de políticas. Sin embargo, este enfoque de maximización de recompensas está limitado por la naturaleza de las recompensas "puntuales" (como el modelo de Bradley-Terry), que no logran expresar relaciones de preferencia complejas, intransitivas o cíclicas. Aunque los avances en RLHF muestran que el aprendizaje de recompensas y la optimización de políticas pueden fusionarse en un único objetivo contrastivo para mejorar la estabilidad, aún permanecen atados al marco de maximización de recompensas. Recientemente, una nueva ola de investigación evita las presunciones de maximización de recompensas en favor de optimizar directamente sobre preferencias "por pares" o generales. En este artículo, presentamos la Optimización Directa de Nash (DNO, por sus siglas en inglés), un algoritmo demostrable y escalable que combina la simplicidad y estabilidad del aprendizaje contrastivo con la generalidad teórica de optimizar preferencias generales. Dado que DNO es un algoritmo por lotes basado en políticas que utiliza un objetivo basado en regresión, su implementación es directa y eficiente. Además, DNO disfruta de una mejora monótona a lo largo de las iteraciones que le permite mejorar incluso sobre un maestro fuerte (como GPT-4). En nuestros experimentos, un modelo Orca-2.5 de 7B parámetros alineado mediante DNO alcanza una tasa de victoria de última generación del 33% frente a GPT-4-Turbo en AlpacaEval 2.0 (incluso después de controlar la longitud de la respuesta), una ganancia absoluta del 26% (del 7% al 33%) sobre el modelo inicial. Supera a modelos con muchos más parámetros, incluyendo Mistral Large, Self-Rewarding LM (70B parámetros) y versiones anteriores de GPT-4.
English
This paper studies post-training large language models (LLMs) using
preference feedback from a powerful oracle to help a model iteratively improve
over itself. The typical approach for post-training LLMs involves Reinforcement
Learning from Human Feedback (RLHF), which traditionally separates reward
learning and subsequent policy optimization. However, such a reward
maximization approach is limited by the nature of "point-wise" rewards (such as
Bradley-Terry model), which fails to express complex intransitive or cyclic
preference relations. While advances on RLHF show reward learning and policy
optimization can be merged into a single contrastive objective for stability,
they yet still remain tethered to the reward maximization framework. Recently,
a new wave of research sidesteps the reward maximization presumptions in favor
of directly optimizing over "pair-wise" or general preferences. In this paper,
we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm
that marries the simplicity and stability of contrastive learning with
theoretical generality from optimizing general preferences. Because DNO is a
batched on-policy algorithm using a regression-based objective, its
implementation is straightforward and efficient. Moreover, DNO enjoys monotonic
improvement across iterations that help it improve even over a strong teacher
(such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model
aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of
33% on AlpacaEval 2.0 (even after controlling for response length), an absolute
gain of 26% (7% to 33%) over the initializing model. It outperforms models with
far more parameters, including Mistral Large, Self-Rewarding LM (70B
parameters), and older versions of GPT-4.Summary
AI-Generated Summary