WPO: Улучшение RLHF с оптимизацией взвешенных предпочтений
WPO: Enhancing RLHF with Weighted Preference Optimization
June 17, 2024
Авторы: Wenxuan Zhou, Ravi Agrawal, Shujian Zhang, Sathish Reddy Indurthi, Sanqiang Zhao, Kaiqiang Song, Silei Xu, Chenguang Zhu
cs.AI
Аннотация
Обучение с подкреплением на основе обратной связи от человека (RLHF) является многообещающим решением для более тесного соответствия крупных языковых моделей (LLM) человеческим ценностям. Оптимизация предпочтений вне политики, где данные о предпочтениях получаются от других моделей, широко применяется из-за своей экономической эффективности и масштабируемости. Однако оптимизация предпочтений вне политики часто страдает от распределительного разрыва между политикой, используемой для сбора данных, и целевой политикой, что приводит к неоптимальной оптимизации. В данной статье мы предлагаем новую стратегию для смягчения этой проблемы путем моделирования обучения внутри политики с использованием данных о предпочтениях вне политики. Наш метод взвешенной оптимизации предпочтений (WPO) адаптирует данные вне политики, чтобы более точно напоминать данные внутри политики путем перевзвешивания пар предпочтений в соответствии с их вероятностью при текущей политике. Этот метод не только решает проблему распределительного разрыва, но и улучшает процесс оптимизации без дополнительных затрат. Мы проверяем наш метод на бенчмарках по следованию инструкциям, включая Alpaca Eval 2 и MT-bench. WPO не только превосходит прямую оптимизацию предпочтений (DPO) на 5.6% на Alpaca Eval 2, но также устанавливает заметную долю побед при управлении длиной против GPT-4-turbo в размере 48.6% на основе Llama-3-8B-Instruct, что делает его самой мощной моделью 8B в рейтинге. Мы опубликуем код и модели на https://github.com/wzhouad/WPO.
English
Reinforcement learning from human feedback (RLHF) is a promising solution to
align large language models (LLMs) more closely with human values. Off-policy
preference optimization, where the preference data is obtained from other
models, is widely adopted due to its cost efficiency and scalability. However,
off-policy preference optimization often suffers from a distributional gap
between the policy used for data collection and the target policy, leading to
suboptimal optimization. In this paper, we propose a novel strategy to mitigate
this problem by simulating on-policy learning with off-policy preference data.
Our Weighted Preference Optimization (WPO) method adapts off-policy data to
resemble on-policy data more closely by reweighting preference pairs according
to their probability under the current policy. This method not only addresses
the distributional gap problem but also enhances the optimization process
without incurring additional costs. We validate our method on instruction
following benchmarks including Alpaca Eval 2 and MT-bench. WPO not only
outperforms Direct Preference Optimization (DPO) by up to 5.6% on Alpaca Eval 2
but also establishes a remarkable length-controlled winning rate against
GPT-4-turbo of 48.6% based on Llama-3-8B-Instruct, making it the strongest 8B
model on the leaderboard. We will release the code and models at
https://github.com/wzhouad/WPO.Summary
AI-Generated Summary