Otimização de Preferência de Intervenção Modulada (MIPO): Manter o Fácil, Refinar o Difícil
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult
September 26, 2024
Autores: Cheolhun Jang
cs.AI
Resumo
Os métodos de otimização de preferências geralmente iniciam o treinamento com um modelo SFT bem treinado como modelo de referência. No RLHF e DPO, um termo de regularização é utilizado durante o processo de otimização de preferências para evitar que o modelo de política se desvie muito da distribuição do modelo de referência, evitando assim a geração de respostas anômalas. Quando o modelo de referência já está bem alinhado com os dados fornecidos ou requer apenas ajustes leves, essa abordagem pode produzir um modelo bem alinhado. No entanto, se o modelo de referência não estiver alinhado com os dados fornecidos e exigir desvios significativos de seu estado atual, um termo de regularização pode, na verdade, prejudicar o alinhamento do modelo. Neste estudo, propomos a Otimização de Preferência com Intervenção Modulada (MIPO) para lidar com esse problema. O MIPO modula o grau de intervenção a partir do modelo de referência com base em quão bem os dados fornecidos estão alinhados com ele. Se os dados estiverem bem alinhados, a intervenção é aumentada para evitar que o modelo de política se afaste significativamente do modelo de referência. Por outro lado, se o alinhamento for ruim, a interferência é reduzida para facilitar um treinamento mais extensivo. Comparamos o desempenho do MIPO e DPO usando Mistral-7B e Llama3-8B no Alpaca Eval 2.0 e MT-Bench. Os resultados experimentais demonstram que o MIPO consistentemente supera o DPO em vários cenários de avaliação.
English
Preference optimization methods typically begin training with a well-trained
SFT model as a reference model. In RLHF and DPO, a regularization term is used
during the preference optimization process to prevent the policy model from
deviating too far from the reference model's distribution, thereby avoiding the
generation of anomalous responses. When the reference model is already
well-aligned with the given data or only requires slight adjustments, this
approach can produce a well-aligned model. However, if the reference model is
not aligned with the given data and requires significant deviation from its
current state, a regularization term may actually hinder the model alignment.
In this study, we propose Modulated Intervention Preference
Optimization (MIPO) to address this issue. MIPO modulates the degree of
intervention from the reference model based on how well the given data is
aligned with it. If the data is well-aligned, the intervention is increased to
prevent the policy model from diverging significantly from reference model.
Conversely, if the alignment is poor, the interference is reduced to facilitate
more extensive training. We compare the performance of MIPO and DPO using
Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental
results demonstrate that MIPO consistently outperforms DPO across various
evaluation scenarios.Summary
AI-Generated Summary