Otimização Direta de Preferências com Regularização Iterativa de Comprimento: Um Estudo de Caso sobre a Melhoria de Modelos de Linguagem de 7B para o Nível do GPT-4
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
June 17, 2024
Autores: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI
Resumo
O Direct Preference Optimization (DPO), um método padrão para alinhar modelos de linguagem com preferências humanas, é tradicionalmente aplicado a preferências offline. Estudos recentes mostram que o DPO se beneficia de treinamento iterativo com preferências online rotuladas por um modelo de recompensa treinado. Neste trabalho, identificamos uma armadilha do DPO iterativo convencional - a melhoria na qualidade das respostas pode levar ao aumento da verbosidade. Para resolver isso, introduzimos o DPO iterativo com regularização de comprimento (iLR-DPO) para penalizar o comprimento das respostas. Nossos resultados empíricos mostram que o iLR-DPO pode aprimorar um modelo de 7B para desempenhar em paridade com o GPT-4 sem aumentar a verbosidade. Especificamente, nosso modelo de 7B alcança uma taxa de vitória controlada por comprimento de 50,5% contra o GPT-4 Preview no AlpacaEval 2.0 e se destaca em benchmarks padrão, incluindo MT-Bench, Arena-Hard e OpenLLM Leaderboard. Esses resultados demonstram a eficácia do DPO iterativo no alinhamento de modelos de linguagem com feedback humano.
English
Direct Preference Optimization (DPO), a standard method for aligning language
models with human preferences, is traditionally applied to offline preferences.
Recent studies show that DPO benefits from iterative training with online
preferences labeled by a trained reward model. In this work, we identify a
pitfall of vanilla iterative DPO - improved response quality can lead to
increased verbosity. To address this, we introduce iterative length-regularized
DPO (iLR-DPO) to penalize response length. Our empirical results show that
iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing
verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win
rate against GPT-4 Preview on AlpacaEval 2.0, and excels across
standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard.
These results demonstrate the effectiveness of iterative DPO in aligning
language models with human feedback.