Modelos de Lenguaje de Autoexploración: Obtención Activa de Preferencias para la Alineación en Línea
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
Autores: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
Resumen
La optimización de preferencias, particularmente a través del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), ha logrado un éxito significativo en alinear los Modelos de Lenguaje de Gran Escala (LLMs) para que se adhieran a las intenciones humanas. A diferencia de la alineación offline con un conjunto de datos fijo, la recopilación de retroalimentación online de humanos o IA sobre las generaciones del modelo generalmente conduce a modelos de recompensa más capaces y LLMs mejor alineados mediante un proceso iterativo. Sin embargo, lograr un modelo de recompensa globalmente preciso requiere una exploración sistemática para generar respuestas diversas que abarquen el vasto espacio del lenguaje natural. El muestreo aleatorio de LLMs estándar que maximizan la recompensa por sí solo es insuficiente para cumplir con este requisito. Para abordar este problema, proponemos un objetivo de dos niveles optimistamente sesgado hacia respuestas potencialmente de alta recompensa para explorar activamente regiones fuera de la distribución. Al resolver el problema del nivel interno con la función de recompensa reparametrizada, el algoritmo resultante, denominado Modelos de Lenguaje de Autoexploración (SELM), elimina la necesidad de un modelo de recompensa (RM) separado y actualiza iterativamente el LLM con un objetivo directo. En comparación con la Optimización Directa de Preferencias (DPO), el objetivo de SELM reduce la preferencia indiscriminada por extrapolaciones no vistas y mejora la eficiencia de la exploración. Nuestros resultados experimentales demuestran que, al ajustarse en los modelos Zephyr-7B-SFT y Llama-3-8B-Instruct, SELM aumenta significativamente el rendimiento en benchmarks de seguimiento de instrucciones como MT-Bench y AlpacaEval 2.0, así como en varios benchmarks académicos estándar en diferentes configuraciones. Nuestro código y modelos están disponibles en https://github.com/shenao-zhang/SELM.
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.Summary
AI-Generated Summary