Ottimizzazione Iterativa delle Preferenze Dirette con Regolarizzazione della Lunghezza: Un Caso di Studio sul Miglioramento di Modelli Linguistici da 7B al Livello di GPT-4
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
June 17, 2024
Autori: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI
Abstract
Direct Preference Optimization (DPO), un metodo standard per allineare i modelli linguistici alle preferenze umane, è tradizionalmente applicato a preferenze offline. Studi recenti dimostrano che il DPO trae vantaggio da un addestramento iterativo con preferenze online etichettate da un modello di ricompensa addestrato. In questo lavoro, identifichiamo una criticità del DPO iterativo di base: il miglioramento della qualità delle risposte può portare a un aumento della verbosità. Per affrontare questo problema, introduciamo il DPO iterativo con regolarizzazione della lunghezza (iLR-DPO) per penalizzare la lunghezza delle risposte. I nostri risultati empirici mostrano che l'iLR-DPO può potenziare un modello da 7B per ottenere prestazioni paragonabili a GPT-4 senza aumentare la verbosità. Nello specifico, il nostro modello da 7B raggiunge un tasso di vittoria controllato per la lunghezza del 50,5% contro GPT-4 Preview su AlpacaEval 2.0 e si distingue in vari benchmark standard, tra cui MT-Bench, Arena-Hard e la OpenLLM Leaderboard. Questi risultati dimostrano l'efficacia del DPO iterativo nell'allineare i modelli linguistici al feedback umano.
English
Direct Preference Optimization (DPO), a standard method for aligning language
models with human preferences, is traditionally applied to offline preferences.
Recent studies show that DPO benefits from iterative training with online
preferences labeled by a trained reward model. In this work, we identify a
pitfall of vanilla iterative DPO - improved response quality can lead to
increased verbosity. To address this, we introduce iterative length-regularized
DPO (iLR-DPO) to penalize response length. Our empirical results show that
iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing
verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win
rate against GPT-4 Preview on AlpacaEval 2.0, and excels across
standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard.
These results demonstrate the effectiveness of iterative DPO in aligning
language models with human feedback.