ChatPaper.aiChatPaper

Modulierte Interventionpräferenzoptimierung (MIPO): Das Einfache beibehalten, das Schwierige verfeinern.

Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

September 26, 2024
Autoren: Cheolhun Jang
cs.AI

Zusammenfassung

Präferenzoptimierungsmethoden beginnen typischerweise das Training mit einem gut trainierten SFT-Modell als Referenzmodell. In RLHF und DPO wird während des Präferenzoptimierungsprozesses ein Regularisierungsterm verwendet, um zu verhindern, dass das Richtlinienmodell zu weit von der Verteilung des Referenzmodells abweicht und somit die Generierung anomaler Antworten vermieden wird. Wenn das Referenzmodell bereits gut auf die vorliegenden Daten ausgerichtet ist oder nur geringfügige Anpassungen erfordert, kann dieser Ansatz ein gut ausgerichtetes Modell erzeugen. Wenn das Referenzmodell jedoch nicht auf die vorliegenden Daten ausgerichtet ist und erhebliche Abweichungen von seinem aktuellen Zustand erfordert, kann ein Regularisierungsterm tatsächlich die Modellausrichtung behindern. In dieser Studie schlagen wir Modulated Intervention Preference Optimization (MIPO) vor, um dieses Problem zu lösen. MIPO moduliert den Grad des Eingreifens vom Referenzmodell basierend darauf, wie gut die vorliegenden Daten damit ausgerichtet sind. Wenn die Daten gut ausgerichtet sind, wird das Eingreifen erhöht, um zu verhindern, dass das Richtlinienmodell signifikant vom Referenzmodell abweicht. Im Gegensatz dazu wird bei schlechter Ausrichtung das Eingreifen reduziert, um ein umfangreicheres Training zu ermöglichen. Wir vergleichen die Leistung von MIPO und DPO unter Verwendung von Mistral-7B und Llama3-8B in Alpaca Eval 2.0 und MT-Bench. Die experimentellen Ergebnisse zeigen, dass MIPO in verschiedenen Evaluierungsszenarien konsistent besser abschneidet als DPO.
English
Preference optimization methods typically begin training with a well-trained SFT model as a reference model. In RLHF and DPO, a regularization term is used during the preference optimization process to prevent the policy model from deviating too far from the reference model's distribution, thereby avoiding the generation of anomalous responses. When the reference model is already well-aligned with the given data or only requires slight adjustments, this approach can produce a well-aligned model. However, if the reference model is not aligned with the given data and requires significant deviation from its current state, a regularization term may actually hinder the model alignment. In this study, we propose Modulated Intervention Preference Optimization (MIPO) to address this issue. MIPO modulates the degree of intervention from the reference model based on how well the given data is aligned with it. If the data is well-aligned, the intervention is increased to prevent the policy model from diverging significantly from reference model. Conversely, if the alignment is poor, the interference is reduced to facilitate more extensive training. We compare the performance of MIPO and DPO using Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental results demonstrate that MIPO consistently outperforms DPO across various evaluation scenarios.

Summary

AI-Generated Summary

PDF205November 16, 2024