Modelli Linguistici Auto-Esploranti: Elicitazione Attiva delle Preferenze per l'Allineamento Online
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
Autori: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
Abstract
L'ottimizzazione delle preferenze, in particolare attraverso il Reinforcement Learning from Human Feedback (RLHF), ha ottenuto un successo significativo nell'allineare i Large Language Models (LLMs) alle intenzioni umane. A differenza dell'allineamento offline con un dataset fisso, la raccolta di feedback online da parte di umani o AI sulle generazioni del modello porta tipicamente a modelli di ricompensa più capaci e a LLMs meglio allineati attraverso un processo iterativo. Tuttavia, ottenere un modello di ricompensa globalmente accurato richiede un'esplorazione sistematica per generare risposte diversificate che coprano il vasto spazio del linguaggio naturale. Il campionamento casuale da LLMs standard che massimizzano la ricompensa da solo è insufficiente per soddisfare questo requisito. Per affrontare questo problema, proponiamo un obiettivo bilivello ottimisticamente orientato verso risposte potenzialmente ad alta ricompensa per esplorare attivamente regioni fuori distribuzione. Risolvendo il problema a livello interno con la funzione di ricompensa riparametrizzata, l'algoritmo risultante, denominato Self-Exploring Language Models (SELM), elimina la necessità di un modello di ricompensa separato e aggiorna iterativamente l'LLM con un obiettivo semplice. Rispetto al Direct Preference Optimization (DPO), l'obiettivo SELM riduce la preferenza indiscriminata per estrapolazioni non viste e migliora l'efficienza dell'esplorazione. I nostri risultati sperimentali dimostrano che, quando ottimizzato sui modelli Zephyr-7B-SFT e Llama-3-8B-Instruct, SELM migliora significativamente le prestazioni su benchmark di seguito delle istruzioni come MT-Bench e AlpacaEval 2.0, nonché su vari benchmark accademici standard in diverse impostazioni. Il nostro codice e i nostri modelli sono disponibili su https://github.com/shenao-zhang/SELM.
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.