Selbst-erkundende Sprachmodelle: Aktive Präferenzerhebung für Online-Abstimmung
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
Autoren: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
Zusammenfassung
Die Optimierung von Präferenzen, insbesondere durch Verstärkendes Lernen aus menschlichem Feedback (RLHF), hat bedeutenden Erfolg dabei erzielt, Große Sprachmodelle (LLMs) an menschliche Absichten anzupassen. Im Gegensatz zur Offline-Anpassung mit einem festen Datensatz führt die Online-Rückmeldung von Menschen oder KI zu Modellgenerationen in der Regel zu leistungsfähigeren Belohnungsmodellen und besser angepassten LLMs durch einen iterativen Prozess. Allerdings erfordert die Erreichung eines global genauen Belohnungsmodells systematische Exploration, um vielfältige Antworten zu generieren, die den weiten Raum der natürlichen Sprache abdecken. Das zufällige Auswählen aus Standard-Belohnungs-maximierenden LLMs allein reicht nicht aus, um diese Anforderung zu erfüllen. Um dieses Problem anzugehen, schlagen wir ein zweistufiges Ziel vor, das optimistisch auf potenziell hochbelohnende Antworten ausgerichtet ist, um aktiv außerhalb der Verteilungsregionen zu erkunden. Durch die Lösung des inneren Problems mit der reparametrisierten Belohnungsfunktion beseitigt der resultierende Algorithmus, namens Selbst-erkundende Sprachmodelle (SELM), die Notwendigkeit eines separaten RM und aktualisiert iterativ das LLM mit einem klaren Ziel. Im Vergleich zur Direkten Präferenzoptimierung (DPO) reduziert das SELM-Ziel die wahllose Bevorzugung von ungesehenen Extrapolationen und verbessert die Explorations-Effizienz. Unsere experimentellen Ergebnisse zeigen, dass SELM die Leistung bei Anweisungsfolge-Benchmarks wie MT-Bench und AlpacaEval 2.0 sowie verschiedenen Standard-Akademie-Benchmarks in verschiedenen Umgebungen signifikant steigert, wenn es an Zephyr-7B-SFT und Llama-3-8B-Instruct-Modellen feinabgestimmt wird. Unser Code und unsere Modelle sind unter https://github.com/shenao-zhang/SELM verfügbar.
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.Summary
AI-Generated Summary