ChatPaper.aiChatPaper

Lernen, um auszurichten, Ausrichten, um zu lernen: Ein einheitlicher Ansatz für selbstoptimierte Ausrichtung

Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

August 11, 2025
papers.authors: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

papers.abstract

Alignment-Methodologien haben sich als entscheidender Weg zur Verbesserung der Ausrichtungsfähigkeiten von Sprachmodellen herausgestellt. Während SFT (Supervised Fine-Tuning) die Konvergenz durch direkte Token-Level-Verlustintervention beschleunigt, ist seine Wirksamkeit durch die Offline-Policy-Trajektorie eingeschränkt. Im Gegensatz dazu ermöglicht RL (Reinforcement Learning) eine explorative Policy-Optimierung, leidet jedoch unter geringer Probeneffizienz und einer starken Abhängigkeit von hochwertigen Basismodellen. Um diese doppelten Herausforderungen zu bewältigen, schlagen wir GRAO (Group Relative Alignment Optimization) vor, ein einheitliches Framework, das die jeweiligen Stärken von SFT und RL durch drei Schlüsselinnovationen kombiniert: 1) Eine Multi-Sample-Generierungsstrategie, die eine vergleichende Qualitätsbewertung durch Belohnungsfeedback ermöglicht; 2) Eine neuartige Formulierung des Group Direct Alignment Loss, die intra-gruppenrelative Vorteilsgewichtung nutzt; 3) Referenzbewusste Parameteraktualisierungen, die durch paarweise Präferenzdynamiken geleitet werden. Unsere theoretische Analyse bestätigt die Konvergenzgarantien und die Probeneffizienzvorteile von GRAO gegenüber konventionellen Ansätzen. Umfassende Bewertungen über komplexe menschliche Ausrichtungsaufgaben demonstrieren die überlegene Leistung von GRAO, mit relativen Verbesserungen von 57,70 %, 17,65 %, 7,95 % und 5,18 % gegenüber den SFT-, DPO-, PPO- und GRPO-Baselines. Diese Arbeit bietet sowohl ein theoretisch fundiertes Alignment-Framework als auch empirische Belege für eine effiziente Fähigkeitsentwicklung in Sprachmodellen.
English
Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.
PDF142August 14, 2025