Aprender a Alinear, Alinear para Aprender: Un Enfoque Unificado para la Alineación Auto-Optimizada
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
August 11, 2025
Autores: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
Resumen
Las metodologías de alineación han surgido como una vía crítica para mejorar las capacidades de alineación de los modelos de lenguaje. Si bien el ajuste fino supervisado (SFT, por sus siglas en inglés) acelera la convergencia mediante la intervención directa en la pérdida a nivel de tokens, su eficacia se ve limitada por la trayectoria de políticas fuera de línea. En contraste, el aprendizaje por refuerzo (RL, por sus siglas en inglés) facilita la optimización exploratoria de políticas, pero sufre de baja eficiencia en el uso de muestras y una estricta dependencia de modelos base de alta calidad. Para abordar estos desafíos duales, proponemos GRAO (Optimización de Alineación Relativa de Grupo), un marco unificado que sinergiza las fortalezas respectivas de SFT y RL a través de tres innovaciones clave: 1) Una estrategia de generación de múltiples muestras que permite la evaluación comparativa de calidad mediante retroalimentación de recompensas; 2) Una nueva formulación de Pérdida de Alineación Directa de Grupo que aprovecha la ponderación de ventaja relativa intra-grupo; 3) Actualizaciones de parámetros conscientes de referencias guiadas por dinámicas de preferencias por pares. Nuestro análisis teórico establece las garantías de convergencia de GRAO y sus ventajas en eficiencia de muestras sobre enfoques convencionales. Evaluaciones exhaustivas en tareas complejas de alineación humana demuestran el rendimiento superior de GRAO, logrando mejoras relativas del 57.70\%, 17.65\%, 7.95\% y 5.18\% sobre las líneas base de SFT, DPO, PPO y GRPO, respectivamente. Este trabajo proporciona tanto un marco de alineación teóricamente fundamentado como evidencia empírica para la evolución eficiente de capacidades en modelos de lenguaje.
English
Alignment methodologies have emerged as a critical pathway for enhancing
language model alignment capabilities. While SFT (supervised fine-tuning)
accelerates convergence through direct token-level loss intervention, its
efficacy is constrained by offline policy trajectory. In contrast,
RL(reinforcement learning) facilitates exploratory policy optimization, but
suffers from low sample efficiency and stringent dependency on high-quality
base models. To address these dual challenges, we propose GRAO (Group Relative
Alignment Optimization), a unified framework that synergizes the respective
strengths of SFT and RL through three key innovations: 1) A multi-sample
generation strategy enabling comparative quality assessment via reward
feedback; 2) A novel Group Direct Alignment Loss formulation leveraging
intra-group relative advantage weighting; 3) Reference-aware parameter updates
guided by pairwise preference dynamics. Our theoretical analysis establishes
GRAO's convergence guarantees and sample efficiency advantages over
conventional approaches. Comprehensive evaluations across complex human
alignment tasks demonstrate GRAO's superior performance, achieving
57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and
GRPO baselines respectively. This work provides both a theoretically grounded
alignment framework and empirical evidence for efficient capability evolution
in language models.