ChatPaper.aiChatPaper

Ottimizzazione delle Preferenze delle Interventi Modulati (MIPO): Mantenere il Facile, Migliorare il Difficile

Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

September 26, 2024
Autori: Cheolhun Jang
cs.AI

Abstract

I metodi di ottimizzazione delle preferenze in genere iniziano l'addestramento con un modello SFT ben addestrato come modello di riferimento. In RLHF e DPO, durante il processo di ottimizzazione delle preferenze viene utilizzato un termine di regolarizzazione per evitare che il modello di policy si discosti troppo dalla distribuzione del modello di riferimento, evitando così la generazione di risposte anomale. Quando il modello di riferimento è già ben allineato con i dati forniti o richiede solo lievi aggiustamenti, questo approccio può produrre un modello ben allineato. Tuttavia, se il modello di riferimento non è allineato con i dati forniti e richiede una deviazione significativa dal suo stato attuale, un termine di regolarizzazione potrebbe effettivamente ostacolare l'allineamento del modello. In questo studio, proponiamo l'Ottimizzazione delle Preferenze con Intervento Modulato (MIPO) per affrontare questo problema. MIPO modula il grado di intervento dal modello di riferimento in base a quanto i dati forniti siano allineati con esso. Se i dati sono ben allineati, l'intervento viene aumentato per evitare che il modello di policy si discosti significativamente dal modello di riferimento. Al contrario, se l'allineamento è scarso, l'interferenza viene ridotta per facilitare un addestramento più esteso. Confrontiamo le prestazioni di MIPO e DPO utilizzando Mistral-7B e Llama3-8B in Alpaca Eval 2.0 e MT-Bench. I risultati sperimentali dimostrano che MIPO supera costantemente DPO in vari scenari di valutazione.
English
Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose Modulated Intervention Preference Optimization (MIPO) to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios.

Summary

AI-Generated Summary

PDF205November 16, 2024