ChatPaper.aiChatPaper

調整された介入選好最適化(MIPO):易しいものを保ち、難しいものを洗練する

Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

September 26, 2024
著者: Cheolhun Jang
cs.AI

要旨

好みの最適化手法は通常、参照モデルとして訓練済みのSFTモデルを使用してトレーニングを開始します。RLHFとDPOでは、好みの最適化プロセス中に正則化項が使用され、ポリシーモデルが参照モデルの分布から大きく逸脱するのを防ぎ、異常な応答の生成を回避します。参照モデルが既に与えられたデータとよく整合しているか、わずかな調整のみが必要な場合、このアプローチはよく整合したモデルを生成できます。ただし、参照モデルが与えられたデータと整合せず、現在の状態から大きく逸脱する必要がある場合、正則化項は実際にはモデルの整合性を妨げる可能性があります。本研究では、この問題に対処するために、Modulated Intervention Preference Optimization(MIPO)を提案します。MIPOは、与えられたデータが参照モデルとどれだけ整合しているかに基づいて、参照モデルからの介入度を調整します。データがよく整合している場合、介入が増加してポリシーモデルが参照モデルから大きく逸脱するのを防ぎます。逆に、整合性が悪い場合、干渉を減らしてより広範なトレーニングを促進します。Alpaca Eval 2.0とMT-BenchでMistral-7BとLlama3-8Bを使用して、MIPOとDPOのパフォーマンスを比較します。実験結果は、MIPOがさまざまな評価シナリオでDPOを常に上回ることを示しています。
English
Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose Modulated Intervention Preference Optimization (MIPO) to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios.

Summary

AI-Generated Summary

PDF205November 16, 2024