Различия между алгоритмами прямого выравнивания смазаны.
The Differences Between Direct Alignment Algorithms are a Blur
February 3, 2025
Авторы: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
cs.AI
Аннотация
Алгоритмы прямого выравнивания (Direct Alignment Algorithms, DAAs) упрощают выравнивание языковых моделей, заменяя обучение с подкреплением (Reinforcement Learning, RL) и моделирование вознаграждения (Reward Modeling, RM) в обучении с обратной связью от человека (Reinforcement Learning from Human Feedback, RLHF) на прямую оптимизацию политики. DAAs могут быть классифицированы по своим функциям потерь (попарные vs. попиковые), по вознаграждениям, использованным в этих функциях потерь (например, отношения правдоподобия политики и эталонной политики, или отношения шансов), или по необходимости фазы надзорного донастройки (двухэтапные vs. одноэтапные). Сначала мы показываем, что одноэтапные методы уступают двухэтапным методам. Для решения этой проблемы мы вводим явную фазу надзорной донастройки и представляем параметр бета, контролирующий силу оптимизации предпочтений, в одноэтапные методы ORPO и ASFT. Эти модификации улучшают их производительность в Alpaca Eval 2 на +3.46 (ORPO) и +8.27 (ASFT), сравнимо с двухэтапными методами, такими как DPO. Дальнейший анализ показывает, что ключевым фактором является то, использует ли подход попарные или попиковые цели, а не конкретная неявная награда или функция потерь. Эти результаты подчеркивают важность тщательной оценки, чтобы избежать преждевременных заявлений о повышении производительности или общем превосходстве в алгоритмах выравнивания.
English
Direct Alignment Algorithms (DAAs) simplify language model alignment by
replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement
Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can
be classified by their ranking losses (pairwise vs. pointwise), by the rewards
used in those losses (e.g., likelihood ratios of policy and reference policy,
or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required
(two-stage vs. one-stage). We first show that one-stage methods underperform
two-stage methods. To address this, we incorporate an explicit SFT phase and
introduce the beta parameter, controlling the strength of preference
optimization, into single-stage ORPO and ASFT. These modifications improve
their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT),
matching two-stage methods like DPO. Further analysis reveals that the key
factor is whether the approach uses pairwise or pointwise objectives, rather
than the specific implicit reward or loss function. These results highlight the
importance of careful evaluation to avoid premature claims of performance gains
or overall superiority in alignment algorithms.Summary
AI-Generated Summary