Modelos de Linguagem de Autoexploração: Coleta Ativa de Preferências para Alinhamento Online
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
Autores: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
Resumo
A otimização de preferências, particularmente através do Aprendizado por Reforço com Feedback Humano (RLHF), alcançou sucesso significativo no alinhamento de Modelos de Linguagem de Grande Escala (LLMs) para aderir às intenções humanas. Diferente do alinhamento offline com um conjunto de dados fixo, a coleta de feedback online de humanos ou de IA sobre as gerações do modelo geralmente leva a modelos de recompensa mais capazes e LLMs melhor alinhados por meio de um processo iterativo. No entanto, alcançar um modelo de recompensa globalmente preciso requer exploração sistemática para gerar respostas diversas que abrangem o vasto espaço da linguagem natural. A amostragem aleatória de LLMs padrão que maximizam a recompensa por si só é insuficiente para atender a essa necessidade. Para resolver esse problema, propomos um objetivo bilevel com viés otimista em direção a respostas potencialmente de alta recompensa para explorar ativamente regiões fora da distribuição. Ao resolver o problema de nível interno com a função de recompensa reparametrizada, o algoritmo resultante, denominado Modelos de Linguagem de Autoexploração (SELM), elimina a necessidade de um RM separado e atualiza iterativamente o LLM com um objetivo direto. Em comparação com a Otimização Direta de Preferências (DPO), o objetivo do SELM reduz a favor indiscriminada de extrapolações não vistas e aumenta a eficiência da exploração. Nossos resultados experimentais demonstram que, quando ajustados nos modelos Zephyr-7B-SFT e Llama-3-8B-Instruct, o SELM aumenta significativamente o desempenho em benchmarks de seguimento de instruções, como MT-Bench e AlpacaEval 2.0, bem como em vários benchmarks acadêmicos padrão em diferentes configurações. Nosso código e modelos estão disponíveis em https://github.com/shenao-zhang/SELM.
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.