Le differenze tra gli algoritmi di allineamento diretto sono sfumate.

Abstract

Gli Algoritmi di Allineamento Diretto (DAAs) semplificano l'allineamento dei modelli linguistici sostituendo l'apprendimento per rinforzo (RL) e la modellazione del premio (RM) nel Reinforcement Learning from Human Feedback (RLHF) con l'ottimizzazione diretta della policy. I DAAs possono essere classificati in base alle loro perdite di classificazione (a coppie vs. a punti), ai premi utilizzati in tali perdite (ad esempio, rapporti di verosimiglianza della policy e della policy di riferimento, o rapporti di probabilità), o se è necessaria una fase di Supervised Fine-Tuning (SFT) (a due fasi vs. a una fase). Mostriamo innanzitutto che i metodi a una fase sono meno performanti rispetto ai metodi a due fasi. Per affrontare questo problema, incorporiamo una fase SFT esplicita e introduciamo il parametro beta, che controlla la forza dell'ottimizzazione delle preferenze, nei metodi single-stage ORPO e ASFT. Queste modifiche migliorano le loro prestazioni in Alpaca Eval 2 di +3.46 (ORPO) e +8.27 (ASFT), equiparando i metodi a due fasi come DPO. Un'ulteriore analisi rivela che il fattore chiave è se l'approccio utilizza obiettivi a coppie o a punti, piuttosto che una specifica ricompensa implicita o funzione di perdita. Questi risultati sottolineano l'importanza di una valutazione accurata per evitare affermazioni premature di miglioramenti delle prestazioni o superiorità complessiva negli algoritmi di allineamento.

English

Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the beta parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.

Le differenze tra gli algoritmi di allineamento diretto sono sfumate.

The Differences Between Direct Alignment Algorithms are a Blur

Abstract

Support