ChatPaper.aiChatPaper

Optimización Directa de Nash: Enseñando a los Modelos de Lenguaje a Mejorarse con Preferencias Generales

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

April 4, 2024
Autores: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI

Resumen

Este artículo estudia el ajuste posterior de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) utilizando retroalimentación de preferencias de un oráculo poderoso para ayudar a un modelo a mejorar iterativamente sobre sí mismo. El enfoque típico para el ajuste posterior de LLMs implica el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés), que tradicionalmente separa el aprendizaje de recompensas y la posterior optimización de políticas. Sin embargo, este enfoque de maximización de recompensas está limitado por la naturaleza de las recompensas "puntuales" (como el modelo de Bradley-Terry), que no logran expresar relaciones de preferencia complejas, intransitivas o cíclicas. Aunque los avances en RLHF muestran que el aprendizaje de recompensas y la optimización de políticas pueden fusionarse en un único objetivo contrastivo para mejorar la estabilidad, aún permanecen atados al marco de maximización de recompensas. Recientemente, una nueva ola de investigación evita las presunciones de maximización de recompensas en favor de optimizar directamente sobre preferencias "por pares" o generales. En este artículo, presentamos la Optimización Directa de Nash (DNO, por sus siglas en inglés), un algoritmo demostrable y escalable que combina la simplicidad y estabilidad del aprendizaje contrastivo con la generalidad teórica de optimizar preferencias generales. Dado que DNO es un algoritmo por lotes basado en políticas que utiliza un objetivo basado en regresión, su implementación es directa y eficiente. Además, DNO disfruta de una mejora monótona a lo largo de las iteraciones que le permite mejorar incluso sobre un maestro fuerte (como GPT-4). En nuestros experimentos, un modelo Orca-2.5 de 7B parámetros alineado mediante DNO alcanza una tasa de victoria de última generación del 33% frente a GPT-4-Turbo en AlpacaEval 2.0 (incluso después de controlar la longitud de la respuesta), una ganancia absoluta del 26% (del 7% al 33%) sobre el modelo inicial. Supera a modelos con muchos más parámetros, incluyendo Mistral Large, Self-Rewarding LM (70B parámetros) y versiones anteriores de GPT-4.
English
This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.

Summary

AI-Generated Summary

PDF621December 15, 2024