Zelfverkennende Taalmodellen: Actieve Preferentieverkenning voor Online Afstemming
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
Auteurs: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
Samenvatting
Voorkeursoptimalisatie, met name via Reinforcement Learning from Human Feedback (RLHF), heeft aanzienlijk succes geboekt in het afstemmen van Large Language Models (LLMs) op menselijke intenties. In tegenstelling tot offline afstemming met een vaste dataset, leidt online feedbackverzameling van mensen of AI over modelgeneraties doorgaans tot capabelere beloningsmodellen en beter afgestemde LLMs via een iteratief proces. Het bereiken van een wereldwijd nauwkeurig beloningsmodel vereist echter systematische exploratie om diverse reacties te genereren die de uitgestrekte ruimte van natuurlijke taal bestrijken. Willekeurige steekproeven uit standaard beloningsmaximaliserende LLMs alleen zijn onvoldoende om aan deze vereiste te voldoen. Om dit probleem aan te pakken, stellen we een bi-level doelstelling voor die optimistisch is gericht op potentieel hoogbeloonde reacties om actief out-of-distribution regio's te verkennen. Door het inner-level probleem op te lossen met de herparameterized beloningsfunctie, elimineert het resulterende algoritme, genaamd Self-Exploring Language Models (SELM), de behoefte aan een apart RM en werkt het de LLM iteratief bij met een eenvoudig doel. In vergelijking met Direct Preference Optimization (DPO) vermindert de SELM-doelstelling de ongerechtvaardigde voorkeur voor ongeziene extrapolaties en verbetert het de exploratie-efficiëntie. Onze experimentele resultaten tonen aan dat wanneer SELM wordt afgestemd op Zephyr-7B-SFT en Llama-3-8B-Instruct modellen, het de prestaties aanzienlijk verbetert op instructievolgende benchmarks zoals MT-Bench en AlpacaEval 2.0, evenals op verschillende standaard academische benchmarks in verschillende instellingen. Onze code en modellen zijn beschikbaar op https://github.com/shenao-zhang/SELM.
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.