ChatPaper.aiChatPaper

Apprendre à aligner, aligner pour apprendre : une approche unifiée pour l'alignement auto-optimisé

Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

August 11, 2025
papers.authors: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

papers.abstract

Les méthodologies d'alignement sont apparues comme une voie essentielle pour améliorer les capacités d'alignement des modèles de langage. Bien que le SFT (supervised fine-tuning) accélère la convergence grâce à une intervention directe sur la perte au niveau des tokens, son efficacité est limitée par la trajectoire de politique hors ligne. En revanche, l'apprentissage par renforcement (RL) facilite l'optimisation exploratoire des politiques, mais souffre d'une faible efficacité d'échantillonnage et d'une dépendance stricte à des modèles de base de haute qualité. Pour relever ces deux défis, nous proposons GRAO (Group Relative Alignment Optimization), un cadre unifié qui combine les forces respectives du SFT et du RL à travers trois innovations clés : 1) Une stratégie de génération multi-échantillons permettant une évaluation comparative de la qualité via un retour de récompense ; 2) Une nouvelle formulation de la perte d'alignement directe de groupe exploitant une pondération des avantages relatifs intra-groupe ; 3) Des mises à jour de paramètres guidées par la dynamique des préférences par paires et prenant en compte des références. Notre analyse théorique établit les garanties de convergence de GRAO et ses avantages en termes d'efficacité d'échantillonnage par rapport aux approches conventionnelles. Des évaluations approfondies sur des tâches complexes d'alignement humain démontrent la performance supérieure de GRAO, avec des améliorations relatives de 57,70 %, 17,65 %, 7,95 % et 5,18 % par rapport aux bases de référence SFT, DPO, PPO et GRPO respectivement. Ce travail fournit à la fois un cadre d'alignement théoriquement fondé et des preuves empiriques pour une évolution efficace des capacités dans les modèles de langage.
English
Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.
PDF142August 14, 2025