Optimización Directa de Preferencias con Regularización de Longitud Iterativa: Un Estudio de Caso sobre la Mejora de Modelos de Lenguaje de 7B al Nivel de GPT-4
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
June 17, 2024
Autores: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI
Resumen
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés), un método estándar para alinear modelos de lenguaje con las preferencias humanas, se aplica tradicionalmente a preferencias fuera de línea. Estudios recientes muestran que DPO se beneficia del entrenamiento iterativo con preferencias en línea etiquetadas por un modelo de recompensa entrenado. En este trabajo, identificamos un inconveniente de la DPO iterativa básica: la mejora en la calidad de las respuestas puede llevar a un aumento en la verbosidad. Para abordar esto, introducimos la DPO iterativa con regularización de longitud (iLR-DPO) para penalizar la extensión de las respuestas. Nuestros resultados empíricos muestran que iLR-DPO puede mejorar un modelo de 7B para rendir al nivel de GPT-4 sin incrementar la verbosidad. Específicamente, nuestro modelo de 7B alcanza una tasa de victoria controlada por longitud del 50.5% frente a GPT-4 Preview en AlpacaEval 2.0, y destaca en benchmarks estándar como MT-Bench, Arena-Hard y el OpenLLM Leaderboard. Estos resultados demuestran la efectividad de la DPO iterativa para alinear modelos de lenguaje con el feedback humano.
English
Direct Preference Optimization (DPO), a standard method for aligning language
models with human preferences, is traditionally applied to offline preferences.
Recent studies show that DPO benefits from iterative training with online
preferences labeled by a trained reward model. In this work, we identify a
pitfall of vanilla iterative DPO - improved response quality can lead to
increased verbosity. To address this, we introduce iterative length-regularized
DPO (iLR-DPO) to penalize response length. Our empirical results show that
iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing
verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win
rate against GPT-4 Preview on AlpacaEval 2.0, and excels across
standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard.
These results demonstrate the effectiveness of iterative DPO in aligning
language models with human feedback.Summary
AI-Generated Summary