Les différences entre les algorithmes d'alignement direct sont floues.
The Differences Between Direct Alignment Algorithms are a Blur
February 3, 2025
Auteurs: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
cs.AI
Résumé
Les algorithmes d'alignement direct (Direct Alignment Algorithms - DAAs) simplifient l'alignement des modèles linguistiques en remplaçant l'apprentissage par renforcement (Reinforcement Learning - RL) et la modélisation des récompenses (Reward Modeling - RM) dans l'apprentissage par renforcement à partir des retours humains (Reinforcement Learning from Human Feedback - RLHF) par une optimisation directe de la politique. Les DAAs peuvent être classés selon leurs pertes de classement (pairwise vs pointwise), selon les récompenses utilisées dans ces pertes (par exemple, les rapports de vraisemblance de la politique et de la politique de référence, ou les rapports de cotes), ou selon la nécessité d'une phase de réglage fin supervisée (Supervised Fine-Tuning - SFT) (deux étapes vs une étape). Nous montrons d'abord que les méthodes à une étape sont moins performantes que les méthodes à deux étapes. Pour remédier à cela, nous incorporons une phase explicite de SFT et introduisons le paramètre bêta, contrôlant la force de l'optimisation des préférences, dans les méthodes ORPO et ASFT à une seule étape. Ces modifications améliorent leurs performances dans Alpaca Eval 2 de +3,46 (ORPO) et +8,27 (ASFT), se rapprochant des méthodes à deux étapes comme DPO. Une analyse plus poussée révèle que le facteur clé est de savoir si l'approche utilise des objectifs pairwise ou pointwise, plutôt que la récompense ou la fonction de perte implicite spécifique. Ces résultats soulignent l'importance d'une évaluation minutieuse pour éviter des affirmations prématurées de gains de performance ou de supériorité globale dans les algorithmes d'alignement.
English
Direct Alignment Algorithms (DAAs) simplify language model alignment by
replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement
Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can
be classified by their ranking losses (pairwise vs. pointwise), by the rewards
used in those losses (e.g., likelihood ratios of policy and reference policy,
or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required
(two-stage vs. one-stage). We first show that one-stage methods underperform
two-stage methods. To address this, we incorporate an explicit SFT phase and
introduce the beta parameter, controlling the strength of preference
optimization, into single-stage ORPO and ASFT. These modifications improve
their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT),
matching two-stage methods like DPO. Further analysis reveals that the key
factor is whether the approach uses pairwise or pointwise objectives, rather
than the specific implicit reward or loss function. These results highlight the
importance of careful evaluation to avoid premature claims of performance gains
or overall superiority in alignment algorithms.Summary
AI-Generated Summary