ChatPaper.aiChatPaper

Самоисследующие языковые модели: активное выявление предпочтений для онлайн выравнивания

Self-Exploring Language Models: Active Preference Elicitation for Online Alignment

May 29, 2024
Авторы: Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang, Hany Hassan, Zhaoran Wang
cs.AI

Аннотация

Оптимизация предпочтений, особенно через Обучение с Подкреплением на основе Обратной Связи от Человека (RLHF), достигла значительных успехов в выравнивании Больших Языковых Моделей (LLM) с человеческими намерениями. В отличие от выравнивания с фиксированным набором данных, сбор обратной связи онлайн от людей или ИИ по модельным поколениям обычно приводит к более способным моделям вознаграждения и лучшему выравниванию LLM в ходе итеративного процесса. Однако для достижения глобально точной модели вознаграждения требуется систематическое исследование для генерации разнообразных ответов, охватывающих огромное пространство естественного языка. Простое случайное выборочное обучение на стандартных LLM, максимизирующих вознаграждение, недостаточно для выполнения этого требования. Для решения этой проблемы мы предлагаем двухуровневую целевую функцию, оптимистично нацеленную на потенциально высоковознаграждаемые ответы для активного исследования областей вне распределения. Путем решения проблемы внутреннего уровня с репараметризованной функцией вознаграждения полученный алгоритм, названный Самоисследующие Языковые Модели (SELM), устраняет необходимость в отдельной МВ и итеративно обновляет LLM с простой целевой функцией. По сравнению с Прямой Оптимизацией Предпочтений (DPO), целевая функция SELM снижает безразличное предпочтение невидимых экстраполяций и повышает эффективность исследования. Наши экспериментальные результаты показывают, что после донастройки на моделях Zephyr-7B-SFT и Llama-3-8B-Instruct, SELM значительно улучшает производительность на бенчмарках по следованию инструкциям, таких как MT-Bench и AlpacaEval 2.0, а также на различных стандартных академических бенчмарках в различных средах. Наш код и модели доступны по адресу https://github.com/shenao-zhang/SELM.
English
Preference optimization, particularly through Reinforcement Learning from Human Feedback (RLHF), has achieved significant success in aligning Large Language Models (LLMs) to adhere to human intentions. Unlike offline alignment with a fixed dataset, online feedback collection from humans or AI on model generations typically leads to more capable reward models and better-aligned LLMs through an iterative process. However, achieving a globally accurate reward model requires systematic exploration to generate diverse responses that span the vast space of natural language. Random sampling from standard reward-maximizing LLMs alone is insufficient to fulfill this requirement. To address this issue, we propose a bilevel objective optimistically biased towards potentially high-reward responses to actively explore out-of-distribution regions. By solving the inner-level problem with the reparameterized reward function, the resulting algorithm, named Self-Exploring Language Models (SELM), eliminates the need for a separate RM and iteratively updates the LLM with a straightforward objective. Compared to Direct Preference Optimization (DPO), the SELM objective reduces indiscriminate favor of unseen extrapolations and enhances exploration efficiency. Our experimental results demonstrate that when finetuned on Zephyr-7B-SFT and Llama-3-8B-Instruct models, SELM significantly boosts the performance on instruction-following benchmarks such as MT-Bench and AlpacaEval 2.0, as well as various standard academic benchmarks in different settings. Our code and models are available at https://github.com/shenao-zhang/SELM.
PDF231December 12, 2024