Aprender a Alinear, Alinear para Aprender: Un Enfoque Unificado para la Alineación Auto-Optimizada

Resumen

Las metodologías de alineación han surgido como una vía crítica para mejorar las capacidades de alineación de los modelos de lenguaje. Si bien el ajuste fino supervisado (SFT, por sus siglas en inglés) acelera la convergencia mediante la intervención directa en la pérdida a nivel de tokens, su eficacia se ve limitada por la trayectoria de políticas fuera de línea. En contraste, el aprendizaje por refuerzo (RL, por sus siglas en inglés) facilita la optimización exploratoria de políticas, pero sufre de baja eficiencia en el uso de muestras y una estricta dependencia de modelos base de alta calidad. Para abordar estos desafíos duales, proponemos GRAO (Optimización de Alineación Relativa de Grupo), un marco unificado que sinergiza las fortalezas respectivas de SFT y RL a través de tres innovaciones clave: 1) Una estrategia de generación de múltiples muestras que permite la evaluación comparativa de calidad mediante retroalimentación de recompensas; 2) Una nueva formulación de Pérdida de Alineación Directa de Grupo que aprovecha la ponderación de ventaja relativa intra-grupo; 3) Actualizaciones de parámetros conscientes de referencias guiadas por dinámicas de preferencias por pares. Nuestro análisis teórico establece las garantías de convergencia de GRAO y sus ventajas en eficiencia de muestras sobre enfoques convencionales. Evaluaciones exhaustivas en tareas complejas de alineación humana demuestran el rendimiento superior de GRAO, logrando mejoras relativas del 57.70\%, 17.65\%, 7.95\% y 5.18\% sobre las líneas base de SFT, DPO, PPO y GRPO, respectivamente. Este trabajo proporciona tanto un marco de alineación teóricamente fundamentado como evidencia empírica para la evolución eficiente de capacidades en modelos de lenguaje.

English

Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.

Aprender a Alinear, Alinear para Aprender: Un Enfoque Unificado para la Alineación Auto-Optimizada

Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

Resumen

Support