Iteratieve Lengte-Gereguleerde Directe Voorkeursoptimalisatie: Een Casestudie over het Verbeteren van 7B Taalmodellen naar GPT-4 Niveau

Samenvatting

Direct Preference Optimization (DPO), een standaardmethode voor het afstemmen van taalmodelen op menselijke voorkeuren, wordt traditioneel toegepast op offline voorkeuren. Recente studies tonen aan dat DPO baat heeft bij iteratieve training met online voorkeuren die zijn gelabeld door een getraind beloningsmodel. In dit werk identificeren we een valkuil van standaard iteratieve DPO: een verbeterde responskwaliteit kan leiden tot meer uitgebreidheid. Om dit aan te pakken, introduceren we iteratieve lengte-gereguleerde DPO (iLR-DPO) om de responslengte te bestraffen. Onze empirische resultaten laten zien dat iLR-DPO een 7B-model kan verbeteren om op hetzelfde niveau te presteren als GPT-4 zonder de uitgebreidheid te vergroten. Specifiek behaalt ons 7B-model een lengte-gecontroleerde winratio van 50,5% tegenover GPT-4 Preview op AlpacaEval 2.0, en presteert het uitstekend op standaardbenchmarks zoals MT-Bench, Arena-Hard en de OpenLLM Leaderboard. Deze resultaten demonstreren de effectiviteit van iteratieve DPO bij het afstemmen van taalmodelen op menselijke feedback.

English

Direct Preference Optimization (DPO), a standard method for aligning language models with human preferences, is traditionally applied to offline preferences. Recent studies show that DPO benefits from iterative training with online preferences labeled by a trained reward model. In this work, we identify a pitfall of vanilla iterative DPO - improved response quality can lead to increased verbosity. To address this, we introduce iterative length-regularized DPO (iLR-DPO) to penalize response length. Our empirical results show that iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win rate against GPT-4 Preview on AlpacaEval 2.0, and excels across standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard. These results demonstrate the effectiveness of iterative DPO in aligning language models with human feedback.

Iteratieve Lengte-Gereguleerde Directe Voorkeursoptimalisatie: Een Casestudie over het Verbeteren van 7B Taalmodellen naar GPT-4 Niveau

Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

Samenvatting

Support