Самоисследующие языковые модели: активное выявление предпочтений для онлайн выравнивания
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
May 29, 2024
Авторы: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI
Аннотация
Оптимизация предпочтений, особенно через Обучение с Подкреплением на основе Обратной Связи от Человека (RLHF), достигла значительных успехов в выравнивании Больших Языковых Моделей (LLM) с человеческими намерениями. В отличие от выравнивания с фиксированным набором данных, сбор обратной связи онлайн от людей или ИИ по модельным поколениям обычно приводит к более способным моделям вознаграждения и лучшему выравниванию LLM в ходе итеративного процесса. Однако для достижения глобально точной модели вознаграждения требуется систематическое исследование для генерации разнообразных ответов, охватывающих огромное пространство естественного языка. Простое случайное выборочное обучение на стандартных LLM, максимизирующих вознаграждение, недостаточно для выполнения этого требования. Для решения этой проблемы мы предлагаем двухуровневую целевую функцию, оптимистично нацеленную на потенциально высоковознаграждаемые ответы для активного исследования областей вне распределения. Путем решения проблемы внутреннего уровня с репараметризованной функцией вознаграждения полученный алгоритм, названный Самоисследующие Языковые Модели (SELM), устраняет необходимость в отдельной МВ и итеративно обновляет LLM с простой целевой функцией. По сравнению с Прямой Оптимизацией Предпочтений (DPO), целевая функция SELM снижает безразличное предпочтение невидимых экстраполяций и повышает эффективность исследования. Наши экспериментальные результаты показывают, что после донастройки на моделях Zephyr-7B-SFT и Llama-3-8B-Instruct, SELM значительно улучшает производительность на бенчмарках по следованию инструкциям, таких как MT-Bench и AlpacaEval 2.0, а также на различных стандартных академических бенчмарках в различных средах. Наш код и модели доступны по адресу https://github.com/shenao-zhang/SELM.
English
Preference optimization, particularly through Reinforcement Learning from
Human Feedback (RLHF), has achieved significant success in aligning Large
Language Models (LLMs) to adhere to human intentions. Unlike offline alignment
with a fixed dataset, online feedback collection from humans or AI on model
generations typically leads to more capable reward models and better-aligned
LLMs through an iterative process. However, achieving a globally accurate
reward model requires systematic exploration to generate diverse responses that
span the vast space of natural language. Random sampling from standard
reward-maximizing LLMs alone is insufficient to fulfill this requirement. To
address this issue, we propose a bilevel objective optimistically biased
towards potentially high-reward responses to actively explore
out-of-distribution regions. By solving the inner-level problem with the
reparameterized reward function, the resulting algorithm, named Self-Exploring
Language Models (SELM), eliminates the need for a separate RM and iteratively
updates the LLM with a straightforward objective. Compared to Direct Preference
Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen
extrapolations and enhances exploration efficiency. Our experimental results
demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct
models, SELM significantly boosts the performance on instruction-following
benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard
academic benchmarks in different settings. Our code and models are available at
https://github.com/shenao-zhang/SELM.