Las diferencias entre los algoritmos de alineación directa son difusas.

Resumen

Los Algoritmos de Alineación Directa (DAAs) simplifican la alineación de modelos de lenguaje al reemplazar el aprendizaje por refuerzo (RL) y la modelización de recompensas (RM) en el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) con optimización directa de políticas. Los DAAs pueden clasificarse por sus pérdidas de clasificación (por pares vs. por puntos), por las recompensas utilizadas en esas pérdidas (por ejemplo, razones de verosimilitud de la política y la política de referencia, o razones de probabilidades), o por si se requiere una fase de Ajuste Fino Supervisado (SFT) (de dos etapas vs. de una etapa). Primero demostramos que los métodos de una sola etapa tienen un rendimiento inferior a los métodos de dos etapas. Para abordar esto, incorporamos una fase explícita de SFT e introducimos el parámetro beta, que controla la fuerza de la optimización de preferencias, en ORPO y ASFT de una sola etapa. Estas modificaciones mejoran su rendimiento en Alpaca Eval 2 en +3.46 (ORPO) y +8.27 (ASFT), igualando a métodos de dos etapas como DPO. Un análisis adicional revela que el factor clave es si el enfoque utiliza objetivos por pares o por puntos, en lugar de la función de recompensa o pérdida implícita específica. Estos resultados resaltan la importancia de una evaluación cuidadosa para evitar afirmaciones prematuras de mejoras de rendimiento o superioridad general en algoritmos de alineación.

English

Direct Alignment Algorithms (DAAs) simplify language model alignment by replacing reinforcement learning (RL) and reward modeling (RM) in Reinforcement Learning from Human Feedback (RLHF) with direct policy optimization. DAAs can be classified by their ranking losses (pairwise vs. pointwise), by the rewards used in those losses (e.g., likelihood ratios of policy and reference policy, or odds ratios), or by whether a Supervised Fine-Tuning (SFT) phase is required (two-stage vs. one-stage). We first show that one-stage methods underperform two-stage methods. To address this, we incorporate an explicit SFT phase and introduce the beta parameter, controlling the strength of preference optimization, into single-stage ORPO and ASFT. These modifications improve their performance in Alpaca Eval 2 by +3.46 (ORPO) and +8.27 (ASFT), matching two-stage methods like DPO. Further analysis reveals that the key factor is whether the approach uses pairwise or pointwise objectives, rather than the specific implicit reward or loss function. These results highlight the importance of careful evaluation to avoid premature claims of performance gains or overall superiority in alignment algorithms.

Las diferencias entre los algoritmos de alineación directa son difusas.

The Differences Between Direct Alignment Algorithms are a Blur

Resumen

Support