As Diferenças Entre os Algoritmos de Alinhamento Direto são Difíceis de Distinguir

Resumo

Algoritmos de Alinhamento Direto (AADs) simplificam o alinhamento de modelos de linguagem substituindo o aprendizado por reforço (RL) e modelagem de recompensa (RM) no Aprendizado por Reforço a partir do Feedback Humano (RLHF) pela otimização direta de políticas. Os AADs podem ser classificados por suas perdas de classificação (por pares versus pontuais), pelas recompensas usadas nessas perdas (por exemplo, razões de verossimilhança da política e política de referência, ou razões de chances), ou pela necessidade de uma fase de Ajuste Fino Supervisionado (AFS) (de duas etapas versus de uma etapa). Primeiramente, demonstramos que os métodos de uma etapa têm desempenho inferior aos métodos de duas etapas. Para lidar com isso, incorporamos uma fase explícita de AFS e introduzimos o parâmetro beta, que controla a força da otimização de preferência, nos métodos de uma etapa ORPO e ASFT. Essas modificações melhoram seu desempenho no Alpaca Eval 2 em +3,46 (ORPO) e +8,27 (ASFT), equiparando-se aos métodos de duas etapas como DPO. Uma análise adicional revela que o fator chave é se a abordagem utiliza objetivos por pares ou pontuais, em vez da recompensa ou função de perda implícita específica. Esses resultados destacam a importância de uma avaliação cuidadosa para evitar reivindicações prematuras de ganhos de desempenho ou superioridade geral em algoritmos de alinhamento.

English

Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the beta parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.

As Diferenças Entre os Algoritmos de Alinhamento Direto são Difíceis de Distinguir

The Differences Between Direct Alignment Algorithms are a Blur

Resumo

Support