Различия между алгоритмами прямого выравнивания смазаны.

Аннотация

Алгоритмы прямого выравнивания (Direct Alignment Algorithms, DAAs) упрощают выравнивание языковых моделей, заменяя обучение с подкреплением (Reinforcement Learning, RL) и моделирование вознаграждения (Reward Modeling, RM) в обучении с обратной связью от человека (Reinforcement Learning from Human Feedback, RLHF) на прямую оптимизацию политики. DAAs могут быть классифицированы по своим функциям потерь (попарные vs. попиковые), по вознаграждениям, использованным в этих функциях потерь (например, отношения правдоподобия политики и эталонной политики, или отношения шансов), или по необходимости фазы надзорного донастройки (двухэтапные vs. одноэтапные). Сначала мы показываем, что одноэтапные методы уступают двухэтапным методам. Для решения этой проблемы мы вводим явную фазу надзорной донастройки и представляем параметр бета, контролирующий силу оптимизации предпочтений, в одноэтапные методы ORPO и ASFT. Эти модификации улучшают их производительность в Alpaca Eval 2 на +3.46 (ORPO) и +8.27 (ASFT), сравнимо с двухэтапными методами, такими как DPO. Дальнейший анализ показывает, что ключевым фактором является то, использует ли подход попарные или попиковые цели, а не конкретная неявная награда или функция потерь. Эти результаты подчеркивают важность тщательной оценки, чтобы избежать преждевременных заявлений о повышении производительности или общем превосходстве в алгоритмах выравнивания.

English

Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the beta parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.

Различия между алгоритмами прямого выравнивания смазаны.

The Differences Between Direct Alignment Algorithms are a Blur

Аннотация

Support