Le differenze tra gli algoritmi di allineamento diretto sono sfumate.
The Differences Between Direct Alignment Algorithms are a Blur
February 3, 2025
Autori: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
cs.AI
Abstract
Gli Algoritmi di Allineamento Diretto (DAAs) semplificano l'allineamento dei modelli linguistici sostituendo l'apprendimento per rinforzo (RL) e la modellazione del premio (RM) nel Reinforcement Learning from Human Feedback (RLHF) con l'ottimizzazione diretta della policy. I DAAs possono essere classificati in base alle loro perdite di classificazione (a coppie vs. a punti), ai premi utilizzati in tali perdite (ad esempio, rapporti di verosimiglianza della policy e della policy di riferimento, o rapporti di probabilità), o se è necessaria una fase di Supervised Fine-Tuning (SFT) (a due fasi vs. a una fase). Mostriamo innanzitutto che i metodi a una fase sono meno performanti rispetto ai metodi a due fasi. Per affrontare questo problema, incorporiamo una fase SFT esplicita e introduciamo il parametro beta, che controlla la forza dell'ottimizzazione delle preferenze, nei metodi single-stage ORPO e ASFT. Queste modifiche migliorano le loro prestazioni in Alpaca Eval 2 di +3.46 (ORPO) e +8.27 (ASFT), equiparando i metodi a due fasi come DPO. Un'ulteriore analisi rivela che il fattore chiave è se l'approccio utilizza obiettivi a coppie o a punti, piuttosto che una specifica ricompensa implicita o funzione di perdita. Questi risultati sottolineano l'importanza di una valutazione accurata per evitare affermazioni premature di miglioramenti delle prestazioni o superiorità complessiva negli algoritmi di allineamento.
English
Direct Alignment Algorithms (DAAs) simplify language model alignment by
replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement
Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can
be classified by their ranking losses (pairwise vs. pointwise), by the rewards
used in those losses (e.g., likelihood ratios of policy and reference policy,
or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required
(two-stage vs. one-stage). We first show that one-stage methods underperform
two-stage methods. To address this, we incorporate an explicit SFT phase and
introduce the beta parameter, controlling the strength of preference
optimization, into single-stage ORPO and ASFT. These modifications improve
their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT),
matching two-stage methods like DPO. Further analysis reveals that the key
factor is whether the approach uses pairwise or pointwise objectives, rather
than the specific implicit reward or loss function. These results highlight the
importance of careful evaluation to avoid premature claims of performance gains
or overall superiority in alignment algorithms.Summary
AI-Generated Summary