Die Unterschiede zwischen direkten Ausrichtungsalgorithmen verschwimmen.

papers.abstract

Direkte Ausrichtungsalgorithmen (DAAs) vereinfachen die Ausrichtung von Sprachmodellen, indem sie das Verstärkungslernen (RL) und die Belohnungsmodellierung (RM) in Reinforcement Learning from Human Feedback (RLHF) durch direkte Richtlinienoptimierung ersetzen. DAAs können nach ihren Rangverlusten (paarweise vs. punktweise), nach den Belohnungen, die in diesen Verlusten verwendet werden (z. B. Wahrscheinlichkeitsverhältnisse der Richtlinie und der Referenzrichtlinie oder Quotenverhältnisse) oder danach, ob eine Phase des überwachten Feintunings (SFT) erforderlich ist (zweistufig vs. einstufig), klassifiziert werden. Wir zeigen zunächst, dass einstufige Methoden schlechter abschneiden als zweistufige Methoden. Um dies zu beheben, integrieren wir eine explizite SFT-Phase und führen den Beta-Parameter ein, der die Stärke der Präferenzoptimierung in einstufigen ORPO und ASFT steuert. Diese Modifikationen verbessern ihre Leistung in Alpaca Eval 2 um +3,46 (ORPO) und +8,27 (ASFT), was zweistufigen Methoden wie DPO entspricht. Eine weitere Analyse zeigt, dass der entscheidende Faktor darin besteht, ob der Ansatz paarweise oder punktweise Ziele verwendet, anstatt der spezifischen impliziten Belohnung oder Verlustfunktion. Diese Ergebnisse unterstreichen die Bedeutung einer sorgfältigen Evaluation, um vorzeitige Behauptungen über Leistungsgewinne oder generelle Überlegenheit bei Ausrichtungsalgorithmen zu vermeiden.

English

Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the beta parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.

Die Unterschiede zwischen direkten Ausrichtungsalgorithmen verschwimmen.

The Differences Between Direct Alignment Algorithms are a Blur

papers.abstract

Support