Apprendre à aligner, aligner pour apprendre : une approche unifiée pour l'alignement auto-optimisé
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
August 11, 2025
papers.authors: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
papers.abstract
Les méthodologies d'alignement sont apparues comme une voie essentielle pour améliorer les capacités d'alignement des modèles de langage. Bien que le SFT (supervised fine-tuning) accélère la convergence grâce à une intervention directe sur la perte au niveau des tokens, son efficacité est limitée par la trajectoire de politique hors ligne. En revanche, l'apprentissage par renforcement (RL) facilite l'optimisation exploratoire des politiques, mais souffre d'une faible efficacité d'échantillonnage et d'une dépendance stricte à des modèles de base de haute qualité. Pour relever ces deux défis, nous proposons GRAO (Group Relative Alignment Optimization), un cadre unifié qui combine les forces respectives du SFT et du RL à travers trois innovations clés : 1) Une stratégie de génération multi-échantillons permettant une évaluation comparative de la qualité via un retour de récompense ; 2) Une nouvelle formulation de la perte d'alignement directe de groupe exploitant une pondération des avantages relatifs intra-groupe ; 3) Des mises à jour de paramètres guidées par la dynamique des préférences par paires et prenant en compte des références. Notre analyse théorique établit les garanties de convergence de GRAO et ses avantages en termes d'efficacité d'échantillonnage par rapport aux approches conventionnelles. Des évaluations approfondies sur des tâches complexes d'alignement humain démontrent la performance supérieure de GRAO, avec des améliorations relatives de 57,70 %, 17,65 %, 7,95 % et 5,18 % par rapport aux bases de référence SFT, DPO, PPO et GRPO respectivement. Ce travail fournit à la fois un cadre d'alignement théoriquement fondé et des preuves empiriques pour une évolution efficace des capacités dans les modèles de langage.
English
Alignment methodologies have emerged as a critical pathway for enhancing
language model alignment capabilities. While SFT (supervised fine-tuning)
accelerates convergence through direct token-level loss intervention, its
efficacy is constrained by offline policy trajectory. In contrast,
RL(reinforcement learning) facilitates exploratory policy optimization, but
suffers from low sample efficiency and stringent dependency on high-quality
base models. To address these dual challenges, we propose GRAO (Group Relative
Alignment Optimization), a unified framework that synergizes the respective
strengths of SFT and RL through three key innovations: 1) A multi-sample
generation strategy enabling comparative quality assessment via reward
feedback; 2) A novel Group Direct Alignment Loss formulation leveraging
intra-group relative advantage weighting; 3) Reference-aware parameter updates
guided by pairwise preference dynamics. Our theoretical analysis establishes
GRAO's convergence guarantees and sample efficiency advantages over
conventional approaches. Comprehensive evaluations across complex human
alignment tasks demonstrate GRAO's superior performance, achieving
57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and
GRPO baselines respectively. This work provides both a theoretically grounded
alignment framework and empirical evidence for efficient capability evolution
in language models.