反復的長さ正則化直接選好最適化:7B言語モデルをGPT-4レベルに改善するケーススタディ
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
June 17, 2024
著者: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI
要旨
Direct Preference Optimization(DPO)は、言語モデルを人間の選好に合わせるための標準的な手法であり、従来はオフラインの選好に対して適用されてきました。最近の研究では、訓練された報酬モデルによってラベル付けされたオンライン選好を用いた反復的なトレーニングがDPOに有効であることが示されています。本研究では、基本的な反復DPOの落とし穴を特定しました。それは、応答品質の向上が冗長性の増加につながる可能性があるということです。この問題に対処するため、応答の長さを抑制する反復的長さ正則化DPO(iLR-DPO)を導入しました。我々の実験結果は、iLR-DPOが7Bモデルを冗長性を増すことなくGPT-4と同等の性能に向上させられることを示しています。具体的には、我々の7BモデルはAlpacaEval 2.0においてGPT-4 Previewに対して50.5%の長さ制御勝率を達成し、MT-Bench、Arena-Hard、OpenLLM Leaderboardなどの標準ベンチマークでも優れた結果を示しました。これらの結果は、反復DPOが言語モデルを人間のフィードバックに合わせる上で有効であることを実証しています。
English
Direct Preference Optimization (DPO), a standard method for aligning language
models with human preferences, is traditionally applied to offline preferences.
Recent studies show that DPO benefits from iterative training with online
preferences labeled by a trained reward model. In this work, we identify a
pitfall of vanilla iterative DPO - improved response quality can lead to
increased verbosity. To address this, we introduce iterative length-regularized
DPO (iLR-DPO) to penalize response length. Our empirical results show that
iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing
verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win
rate against GPT-4 Preview on AlpacaEval 2.0, and excels across
standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard.
These results demonstrate the effectiveness of iterative DPO in aligning
language models with human feedback.Summary
AI-Generated Summary