Gemoduleerde Interventievoorkeur Optimalisatie (MIPO): Behoud het Makkelijke, Verfijn het Moeilijke

Samenvatting

Voorkeurs optimalisatiemethoden beginnen doorgaans met training met een goed getraind SFT-model als referentiemodel. In RLHF en DPO wordt tijdens het voorkeurs optimalisatieproces een regularisatieterm gebruikt om te voorkomen dat het beleidsmodel te ver afdwaalt van de distributie van het referentiemodel, waardoor het genereren van abnormale reacties wordt vermeden. Wanneer het referentiemodel al goed is uitgelijnd met de gegeven data of slechts kleine aanpassingen vereist, kan deze aanpak een goed uitgelijnd model opleveren. Als het referentiemodel echter niet is uitgelijnd met de gegeven data en aanzienlijke afwijking van zijn huidige staat vereist, kan een regularisatieterm het modeluitlijning daadwerkelijk belemmeren. In dit onderzoek stellen we Modulated Intervention Preference Optimization (MIPO) voor om dit probleem aan te pakken. MIPO moduleert de mate van interventie vanuit het referentiemodel op basis van hoe goed de gegeven data ermee is uitgelijnd. Als de data goed is uitgelijnd, wordt de interventie verhoogd om te voorkomen dat het beleidsmodel aanzienlijk afwijkt van het referentiemodel. Daarentegen wordt de tussenkomst verminderd als de uitlijning slecht is, om uitgebreidere training te vergemakkelijken. We vergelijken de prestaties van MIPO en DPO met behulp van Mistral-7B en Llama3-8B in Alpaca Eval 2.0 en MT-Bench. De experimentele resultaten tonen aan dat MIPO consequent beter presteert dan DPO in verschillende evaluatiescenario's.

English

Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose Modulated Intervention Preference Optimization (MIPO) to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios.

Gemoduleerde Interventievoorkeur Optimalisatie (MIPO): Behoud het Makkelijke, Verfijn het Moeilijke

Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

Samenvatting

Summary

Support

Support