ChatPaper.aiChatPaper

Les différences entre les algorithmes d'alignement direct sont floues.

The Differences Between Direct Alignment Algorithms are a Blur

February 3, 2025
Auteurs: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
cs.AI

Résumé

Les algorithmes d'alignement direct (Direct Alignment Algorithms - DAAs) simplifient l'alignement des modèles linguistiques en remplaçant l'apprentissage par renforcement (Reinforcement Learning - RL) et la modélisation des récompenses (Reward Modeling - RM) dans l'apprentissage par renforcement à partir des retours humains (Reinforcement Learning from Human Feedback - RLHF) par une optimisation directe de la politique. Les DAAs peuvent être classés selon leurs pertes de classement (pairwise vs pointwise), selon les récompenses utilisées dans ces pertes (par exemple, les rapports de vraisemblance de la politique et de la politique de référence, ou les rapports de cotes), ou selon la nécessité d'une phase de réglage fin supervisée (Supervised Fine-Tuning - SFT) (deux étapes vs une étape). Nous montrons d'abord que les méthodes à une étape sont moins performantes que les méthodes à deux étapes. Pour remédier à cela, nous incorporons une phase explicite de SFT et introduisons le paramètre bêta, contrôlant la force de l'optimisation des préférences, dans les méthodes ORPO et ASFT à une seule étape. Ces modifications améliorent leurs performances dans Alpaca Eval 2 de +3,46 (ORPO) et +8,27 (ASFT), se rapprochant des méthodes à deux étapes comme DPO. Une analyse plus poussée révèle que le facteur clé est de savoir si l'approche utilise des objectifs pairwise ou pointwise, plutôt que la récompense ou la fonction de perte implicite spécifique. Ces résultats soulignent l'importance d'une évaluation minutieuse pour éviter des affirmations prématurées de gains de performance ou de supériorité globale dans les algorithmes d'alignement.
English
Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the beta parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.

Summary

AI-Generated Summary

PDF1151February 4, 2025