Aprendendo a Alinhar, Alinhando para Aprender: Uma Abordagem Unificada para Alinhamento Auto-Otimizado
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
August 11, 2025
Autores: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
Resumo
Metodologias de alinhamento emergiram como um caminho crítico para aprimorar as capacidades de alinhamento de modelos de linguagem. Enquanto o SFT (fine-tuning supervisionado) acelera a convergência por meio de intervenção direta na perda em nível de token, sua eficácia é limitada pela trajetória de política offline. Em contraste, o RL (aprendizado por reforço) facilita a otimização exploratória de políticas, mas sofre com baixa eficiência de amostragem e dependência rigorosa de modelos base de alta qualidade. Para abordar esses desafios duplos, propomos o GRAO (Otimização de Alinhamento Relativo em Grupo), um framework unificado que sinergiza os pontos fortes do SFT e do RL por meio de três inovações principais: 1) Uma estratégia de geração de múltiplas amostras que permite avaliação comparativa de qualidade por meio de feedback de recompensa; 2) Uma nova formulação de Perda de Alinhamento Direto em Grupo que aproveita a ponderação de vantagem relativa intra-grupo; 3) Atualizações de parâmetros conscientes de referência guiadas por dinâmicas de preferência pareadas. Nossa análise teórica estabelece garantias de convergência do GRAO e vantagens de eficiência de amostragem sobre abordagens convencionais. Avaliações abrangentes em tarefas complexas de alinhamento humano demonstram o desempenho superior do GRAO, alcançando melhorias relativas de 57,70%, 17,65%, 7,95% e 5,18% sobre as baselines de SFT, DPO, PPO e GRPO, respectivamente. Este trabalho fornece tanto um framework de alinhamento teoricamente fundamentado quanto evidências empíricas para a evolução eficiente de capacidades em modelos de linguagem.
English
Alignment methodologies have emerged as a critical pathway for enhancing
language model alignment capabilities. While SFT (supervised fine-tuning)
accelerates convergence through direct token-level loss intervention, its
efficacy is constrained by offline policy trajectory. In contrast,
RL(reinforcement learning) facilitates exploratory policy optimization, but
suffers from low sample efficiency and stringent dependency on high-quality
base models. To address these dual challenges, we propose GRAO (Group Relative
Alignment Optimization), a unified framework that synergizes the respective
strengths of SFT and RL through three key innovations: 1) A multi-sample
generation strategy enabling comparative quality assessment via reward
feedback; 2) A novel Group Direct Alignment Loss formulation leveraging
intra-group relative advantage weighting; 3) Reference-aware parameter updates
guided by pairwise preference dynamics. Our theoretical analysis establishes
GRAO's convergence guarantees and sample efficiency advantages over
conventional approaches. Comprehensive evaluations across complex human
alignment tasks demonstrate GRAO's superior performance, achieving
57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and
GRPO baselines respectively. This work provides both a theoretically grounded
alignment framework and empirical evidence for efficient capability evolution
in language models.