Optimización Directa de Nash: Enseñando a los Modelos de Lenguaje a Mejorarse con Preferencias GeneralesDirect Nash Optimization: Teaching Language Models to Self-Improve with
General Preferences
Este artículo estudia el ajuste posterior de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) utilizando retroalimentación de preferencias de un oráculo poderoso para ayudar a un modelo a mejorar iterativamente sobre sí mismo. El enfoque típico para el ajuste posterior de LLMs implica el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés), que tradicionalmente separa el aprendizaje de recompensas y la posterior optimización de políticas. Sin embargo, este enfoque de maximización de recompensas está limitado por la naturaleza de las recompensas "puntuales" (como el modelo de Bradley-Terry), que no logran expresar relaciones de preferencia complejas, intransitivas o cíclicas. Aunque los avances en RLHF muestran que el aprendizaje de recompensas y la optimización de políticas pueden fusionarse en un único objetivo contrastivo para mejorar la estabilidad, aún permanecen atados al marco de maximización de recompensas. Recientemente, una nueva ola de investigación evita las presunciones de maximización de recompensas en favor de optimizar directamente sobre preferencias "por pares" o generales. En este artículo, presentamos la Optimización Directa de Nash (DNO, por sus siglas en inglés), un algoritmo demostrable y escalable que combina la simplicidad y estabilidad del aprendizaje contrastivo con la generalidad teórica de optimizar preferencias generales. Dado que DNO es un algoritmo por lotes basado en políticas que utiliza un objetivo basado en regresión, su implementación es directa y eficiente. Además, DNO disfruta de una mejora monótona a lo largo de las iteraciones que le permite mejorar incluso sobre un maestro fuerte (como GPT-4). En nuestros experimentos, un modelo Orca-2.5 de 7B parámetros alineado mediante DNO alcanza una tasa de victoria de última generación del 33% frente a GPT-4-Turbo en AlpacaEval 2.0 (incluso después de controlar la longitud de la respuesta), una ganancia absoluta del 26% (del 7% al 33%) sobre el modelo inicial. Supera a modelos con muchos más parámetros, incluyendo Mistral Large, Self-Rewarding LM (70B parámetros) y versiones anteriores de GPT-4.