Leren om uit te lijnen, uitlijnen om te leren: Een uniforme aanpak voor zelf-geoptimaliseerde uitlijning
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
August 11, 2025
Auteurs: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
Samenvatting
Alignmethodologieën zijn naar voren gekomen als een cruciaal pad voor het verbeteren van de aligneringsmogelijkheden van taalmodelen. Hoewel SFT (supervised fine-tuning) convergentie versnelt door directe interventie op token-niveau verlies, wordt de effectiviteit ervan beperkt door offline beleidstrajecten. Daarentegen vergemakkelijkt RL (reinforcement learning) exploratieve beleidsoptimalisatie, maar lijdt het onder lage steekproefefficiëntie en een strikte afhankelijkheid van hoogwaardige basismodellen. Om deze dubbele uitdagingen aan te pakken, stellen we GRAO (Group Relative Alignment Optimization) voor, een uniform raamwerk dat de respectieve sterke punten van SFT en RL combineert door drie belangrijke innovaties: 1) Een multi-steekproefgeneratiestrategie die vergelijkende kwaliteitsbeoordeling mogelijk maakt via beloningsfeedback; 2) Een nieuwe formulering van Group Direct Alignment Loss die gebruikmaakt van intra-groep relatieve voordeelweging; 3) Referentiebewuste parameterupdates geleid door paarsgewijze voorkeursdynamiek. Onze theoretische analyse stelt de convergentiegaranties en steekproefefficiëntievoordelen van GRAO vast ten opzichte van conventionele benaderingen. Uitgebreide evaluaties over complexe menselijke aligneringstaken demonstreren de superieure prestaties van GRAO, met relatieve verbeteringen van respectievelijk 57,70%, 17,65%, 7,95% en 5,18% ten opzichte van SFT, DPO, PPO en GRPO-baselines. Dit werk biedt zowel een theoretisch onderbouwd aligneringsraamwerk als empirisch bewijs voor efficiënte capaciteitsevolutie in taalmodelen.
English
Alignment methodologies have emerged as a critical pathway for enhancing
language model alignment capabilities. While SFT (supervised fine-tuning)
accelerates convergence through direct token-level loss intervention, its
efficacy is constrained by offline policy trajectory. In contrast,
RL(reinforcement learning) facilitates exploratory policy optimization, but
suffers from low sample efficiency and stringent dependency on high-quality
base models. To address these dual challenges, we propose GRAO (Group Relative
Alignment Optimization), a unified framework that synergizes the respective
strengths of SFT and RL through three key innovations: 1) A multi-sample
generation strategy enabling comparative quality assessment via reward
feedback; 2) A novel Group Direct Alignment Loss formulation leveraging
intra-group relative advantage weighting; 3) Reference-aware parameter updates
guided by pairwise preference dynamics. Our theoretical analysis establishes
GRAO's convergence guarantees and sample efficiency advantages over
conventional approaches. Comprehensive evaluations across complex human
alignment tasks demonstrate GRAO's superior performance, achieving
57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and
GRPO baselines respectively. This work provides both a theoretically grounded
alignment framework and empirical evidence for efficient capability evolution
in language models.