De verschillen tussen directe uitlijnalgoritmen vervagen.
The Differences Between Direct Alignment Algorithms are a Blur
February 3, 2025
Auteurs: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
cs.AI
Samenvatting
Directe uitlijnalgoritmen (DAAs) vereenvoudigen de uitlijning van taalmodellen door versterkend leren (RL) en beloningsmodellering (RM) in Versterkt Leren van Menselijke Feedback (RLHF) te vervangen door directe beleidsoptimalisatie. DAAs kunnen worden geclassificeerd op basis van hun rangschikkingsverliezen (pairwise versus pointwise), op basis van de beloningen die worden gebruikt in die verliezen (bijv. waarschijnlijkheidsverhoudingen van beleid en referentiebeleid, of kansenverhoudingen), of op basis van of een fase van Begeleid Fijnafstemmen (SFT) vereist is (twee-fasen versus één-fase). We tonen eerst aan dat één-fase methoden minder presteren dan twee-fase methoden. Om dit aan te pakken, nemen we een expliciete SFT-fase op en introduceren we de bètaparameter, die de sterkte van voorkeursoptimalisatie regelt, in enkelvoudige ORPO en ASFT. Deze aanpassingen verbeteren hun prestaties in Alpaca Eval 2 met +3.46 (ORPO) en +8.27 (ASFT), waarmee ze overeenkomen met twee-fase methoden zoals DPO. Verder onderzoek onthult dat de sleutelfactor is of de benadering gebruikmaakt van pairwise of pointwise doelstellingen, eerder dan de specifieke impliciete beloning of verliesfunctie. Deze resultaten benadrukken het belang van zorgvuldige evaluatie om voorbarige claims van prestatieverbeteringen of algehele superioriteit in uitlijnalgoritmen te vermijden.
English
Direct Alignment Algorithms (DAAs) simplify language model alignment by
replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement
Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can
be classified by their ranking losses (pairwise vs. pointwise), by the rewards
used in those losses (e.g., likelihood ratios of policy and reference policy,
or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required
(two-stage vs. one-stage). We first show that one-stage methods underperform
two-stage methods. To address this, we incorporate an explicit SFT phase and
introduce the beta parameter, controlling the strength of preference
optimization, into single-stage ORPO and ASFT. These modifications improve
their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT),
matching two-stage methods like DPO. Further analysis reveals that the key
factor is whether the approach uses pairwise or pointwise objectives, rather
than the specific implicit reward or loss function. These results highlight the
importance of careful evaluation to avoid premature claims of performance gains
or overall superiority in alignment algorithms.Summary
AI-Generated Summary