Optimización de Preferencia de Intervención Modulada (MIPO): Conservar lo Fácil, Refinar lo Difícil
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult
September 26, 2024
Autores: Cheolhun Jang
cs.AI
Resumen
Los métodos de optimización de preferencias suelen comenzar el entrenamiento con un modelo SFT bien entrenado como modelo de referencia. En RLHF y DPO, se utiliza un término de regularización durante el proceso de optimización de preferencias para evitar que el modelo de políticas se desvíe demasiado de la distribución del modelo de referencia, evitando así la generación de respuestas anómalas. Cuando el modelo de referencia ya está bien alineado con los datos proporcionados o solo requiere ajustes leves, este enfoque puede producir un modelo bien alineado. Sin embargo, si el modelo de referencia no está alineado con los datos proporcionados y requiere una desviación significativa de su estado actual, un término de regularización puede obstaculizar realmente la alineación del modelo. En este estudio, proponemos la Optimización de Preferencias con Intervención Modulada (MIPO) para abordar este problema. MIPO modula el grado de intervención del modelo de referencia en función de qué tan bien se alinean los datos proporcionados con él. Si los datos están bien alineados, se aumenta la intervención para evitar que el modelo de políticas se aleje significativamente del modelo de referencia. Por el contrario, si la alineación es pobre, se reduce la interferencia para facilitar un entrenamiento más extenso. Comparamos el rendimiento de MIPO y DPO utilizando Mistral-7B y Llama3-8B en Alpaca Eval 2.0 y MT-Bench. Los resultados experimentales demuestran que MIPO supera consistentemente a DPO en diversas situaciones de evaluación.
English
Preference optimization methods typically begin training with a well-trained
SFT model as a reference model. In RLHF and DPO, a regularization term is used
during the preference optimization process to prevent the policy model from
deviating too far from the reference model's distribution, thereby avoiding the
generation of anomalous responses. When the reference model is already
well-aligned with the given data or only requires slight adjustments, this
approach can produce a well-aligned model. However, if the reference model is
not aligned with the given data and requires significant deviation from its
current state, a regularization term may actually hinder the model alignment.
In this study, we propose Modulated Intervention Preference
Optimization (MIPO) to address this issue. MIPO modulates the degree of
intervention from the reference model based on how well the given data is
aligned with it. If the data is well-aligned, the intervention is increased to
prevent the policy model from diverging significantly from reference model.
Conversely, if the alignment is poor, the interference is reduced to facilitate
more extensive training. We compare the performance of MIPO and DPO using
Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental
results demonstrate that MIPO consistently outperforms DPO across various
evaluation scenarios.Summary
AI-Generated Summary