Optimisation Directe des Préférences avec Régularisation Itérative de la Longueur : Une Étude de Cas sur l'Amélioration des Modèles de Langage 7B au Niveau de GPT-4
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
June 17, 2024
Auteurs: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI
Résumé
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO), une méthode standard pour aligner les modèles de langage avec les préférences humaines, est traditionnellement appliquée à des préférences hors ligne. Des études récentes montrent que la DPO bénéficie d'un entraînement itératif avec des préférences en ligne étiquetées par un modèle de récompense entraîné. Dans ce travail, nous identifions un écueil de la DPO itérative classique : l'amélioration de la qualité des réponses peut entraîner une augmentation de la verbosité. Pour remédier à cela, nous introduisons la DPO itérative régularisée par la longueur (iterative length-regularized DPO, iLR-DPO) pour pénaliser la longueur des réponses. Nos résultats empiriques montrent que l'iLR-DPO peut améliorer un modèle de 7B pour qu'il performe au niveau de GPT-4 sans augmenter la verbosité. Plus précisément, notre modèle de 7B atteint un taux de victoire contrôlé par la longueur de 50,5 % contre GPT-4 Preview sur AlpacaEval 2.0, et excelle sur des benchmarks standards incluant MT-Bench, Arena-Hard et le classement OpenLLM. Ces résultats démontrent l'efficacité de la DPO itérative pour aligner les modèles de langage avec les retours humains.
English
Direct Preference Optimization (DPO), a standard method for aligning language
models with human preferences, is traditionally applied to offline preferences.
Recent studies show that DPO benefits from iterative training with online
preferences labeled by a trained reward model. In this work, we identify a
pitfall of vanilla iterative DPO - improved response quality can lead to
increased verbosity. To address this, we introduce iterative length-regularized
DPO (iLR-DPO) to penalize response length. Our empirical results show that
iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing
verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win
rate against GPT-4 Preview on AlpacaEval 2.0, and excels across
standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard.
These results demonstrate the effectiveness of iterative DPO in aligning
language models with human feedback.Summary
AI-Generated Summary