ChatPaper.aiChatPaper

Итеративная оптимизация прямых предпочтений с регуляризацией длины: исследование случая по улучшению языковых моделей объемом 7 миллиардов до уровня GPT-4

Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

June 17, 2024
Авторы: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI

Аннотация

Оптимизация Прямых Предпочтений (DPO), стандартный метод выравнивания языковых моделей с человеческими предпочтениями, традиционно применяется к офлайновым предпочтениям. Недавние исследования показывают, что DPO получает выгоду от итеративного обучения с онлайновыми предпочтениями, помеченными обученной моделью вознаграждения. В данной работе мы выявляем подводный камень обычного итеративного DPO - улучшенное качество ответов может привести к увеличению многословности. Для решения этой проблемы мы представляем итеративную DPO с регуляризацией длины (iLR-DPO) для наказания длины ответа. Наши эмпирические результаты показывают, что iLR-DPO может улучшить модель 7B, чтобы она работала на уровне GPT-4 без увеличения многословности. Конкретно, наша модель 7B достигает победы со степенью контроля длины 50.5% против GPT-4 Preview на AlpacaEval 2.0 и превосходит стандартные бенчмарки, включая MT-Bench, Arena-Hard и OpenLLM Leaderboard. Эти результаты демонстрируют эффективность итеративного DPO в выравнивании языковых моделей с обратной связью от людей.
English
Direct Preference Optimization (DPO), a standard method for aligning language models with human preferences, is traditionally applied to offline preferences. Recent studies show that DPO benefits from iterative training with online preferences labeled by a trained reward model. In this work, we identify a pitfall of vanilla iterative DPO - improved response quality can lead to increased verbosity. To address this, we introduce iterative length-regularized DPO (iLR-DPO) to penalize response length. Our empirical results show that iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win rate against GPT-4 Preview on AlpacaEval 2.0, and excels across standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard. These results demonstrate the effectiveness of iterative DPO in aligning language models with human feedback.

Summary

AI-Generated Summary

PDF131December 2, 2024