De verschillen tussen directe uitlijnalgoritmen vervagen.

Samenvatting

Directe uitlijnalgoritmen (DAAs) vereenvoudigen de uitlijning van taalmodellen door versterkend leren (RL) en beloningsmodellering (RM) in Versterkt Leren van Menselijke Feedback (RLHF) te vervangen door directe beleidsoptimalisatie. DAAs kunnen worden geclassificeerd op basis van hun rangschikkingsverliezen (pairwise versus pointwise), op basis van de beloningen die worden gebruikt in die verliezen (bijv. waarschijnlijkheidsverhoudingen van beleid en referentiebeleid, of kansenverhoudingen), of op basis van of een fase van Begeleid Fijnafstemmen (SFT) vereist is (twee-fasen versus één-fase). We tonen eerst aan dat één-fase methoden minder presteren dan twee-fase methoden. Om dit aan te pakken, nemen we een expliciete SFT-fase op en introduceren we de bètaparameter, die de sterkte van voorkeursoptimalisatie regelt, in enkelvoudige ORPO en ASFT. Deze aanpassingen verbeteren hun prestaties in Alpaca Eval 2 met +3.46 (ORPO) en +8.27 (ASFT), waarmee ze overeenkomen met twee-fase methoden zoals DPO. Verder onderzoek onthult dat de sleutelfactor is of de benadering gebruikmaakt van pairwise of pointwise doelstellingen, eerder dan de specifieke impliciete beloning of verliesfunctie. Deze resultaten benadrukken het belang van zorgvuldige evaluatie om voorbarige claims van prestatieverbeteringen of algehele superioriteit in uitlijnalgoritmen te vermijden.

English

Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the beta parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.

De verschillen tussen directe uitlijnalgoritmen vervagen.

The Differences Between Direct Alignment Algorithms are a Blur

Samenvatting

Support