ChatPaper.aiChatPaper

学習を整列させる、整列を学習する:自己最適化された整列のための統一アプローチ

Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

August 11, 2025
著者: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

要旨

アライメント手法は、言語モデルのアライメント能力を向上させるための重要な道筋として浮上しています。SFT(教師ありファインチューニング)は、直接的なトークンレベルの損失介入によって収束を加速しますが、その効果はオフラインポリシートラジェクトリによって制約を受けます。一方、RL(強化学習)は探索的なポリシー最適化を促進しますが、サンプル効率が低く、高品質なベースモデルへの厳密な依存性に悩まされます。これらの二重の課題に対処するため、我々はGRAO(Group Relative Alignment Optimization)を提案します。これは、SFTとRLのそれぞれの強みを相乗的に活用する統一フレームワークであり、以下の3つの主要な革新を通じて実現されます:1)報酬フィードバックによる比較的品質評価を可能にする多サンプル生成戦略、2)グループ内相対的優位性重み付けを活用した新規のGroup Direct Alignment Lossの定式化、3)ペアワイズ選好ダイナミクスに基づく参照認識パラメータ更新。我々の理論分析は、GRAOが従来のアプローチに対して収束保証とサンプル効率の優位性を持つことを示しています。複雑な人間アライメントタスクにわたる包括的評価は、GRAOがSFT、DPO、PPO、GRPOのベースラインに対してそれぞれ57.70%、17.65%、7.95%、5.18%の相対的改善を達成し、優れた性能を発揮することを実証しています。本論文は、理論的に裏付けられたアライメントフレームワークと、言語モデルの効率的な能力進化に関する実証的証拠を提供します。
English
Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.
PDF142August 14, 2025