Iteratieve Lengte-Gereguleerde Directe Voorkeursoptimalisatie: Een Casestudie over het Verbeteren van 7B Taalmodellen naar GPT-4 Niveau
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
June 17, 2024
Auteurs: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI
Samenvatting
Direct Preference Optimization (DPO), een standaardmethode voor het afstemmen van taalmodelen op menselijke voorkeuren, wordt traditioneel toegepast op offline voorkeuren. Recente studies tonen aan dat DPO baat heeft bij iteratieve training met online voorkeuren die zijn gelabeld door een getraind beloningsmodel. In dit werk identificeren we een valkuil van standaard iteratieve DPO: een verbeterde responskwaliteit kan leiden tot meer uitgebreidheid. Om dit aan te pakken, introduceren we iteratieve lengte-gereguleerde DPO (iLR-DPO) om de responslengte te bestraffen. Onze empirische resultaten laten zien dat iLR-DPO een 7B-model kan verbeteren om op hetzelfde niveau te presteren als GPT-4 zonder de uitgebreidheid te vergroten. Specifiek behaalt ons 7B-model een lengte-gecontroleerde winratio van 50,5% tegenover GPT-4 Preview op AlpacaEval 2.0, en presteert het uitstekend op standaardbenchmarks zoals MT-Bench, Arena-Hard en de OpenLLM Leaderboard. Deze resultaten demonstreren de effectiviteit van iteratieve DPO bij het afstemmen van taalmodelen op menselijke feedback.
English
Direct Preference Optimization (DPO), a standard method for aligning language
models with human preferences, is traditionally applied to offline preferences.
Recent studies show that DPO benefits from iterative training with online
preferences labeled by a trained reward model. In this work, we identify a
pitfall of vanilla iterative DPO - improved response quality can lead to
increased verbosity. To address this, we introduce iterative length-regularized
DPO (iLR-DPO) to penalize response length. Our empirical results show that
iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing
verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win
rate against GPT-4 Preview on AlpacaEval 2.0, and excels across
standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard.
These results demonstrate the effectiveness of iterative DPO in aligning
language models with human feedback.