Обучение для согласования, согласование для обучения: унифицированный подход к самооптимизирующемуся согласованию
Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment
August 11, 2025
Авторы: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
Аннотация
Методологии согласования стали ключевым направлением для повышения возможностей согласования языковых моделей. Хотя SFT (supervised fine-tuning, контролируемая тонкая настройка) ускоряет сходимость за счет прямого вмешательства на уровне потерь токенов, её эффективность ограничена оффлайн-траекторией политики. В отличие от этого, RL (reinforcement learning, обучение с подкреплением) способствует исследовательской оптимизации политики, но страдает от низкой эффективности использования данных и строгой зависимости от высококачественных базовых моделей. Для решения этих двойных проблем мы предлагаем GRAO (Group Relative Alignment Optimization, оптимизация группового относительного согласования) — унифицированную структуру, которая объединяет сильные стороны SFT и RL через три ключевых инновации: 1) стратегию генерации множества образцов, позволяющую сравнительную оценку качества через обратную связь по вознаграждению; 2) новую формулировку Group Direct Alignment Loss, использующую взвешивание относительных преимуществ внутри группы; 3) обновление параметров с учетом референсов, управляемое динамикой парных предпочтений. Наш теоретический анализ подтверждает гарантии сходимости GRAO и её преимущества в эффективности использования данных по сравнению с традиционными подходами. Комплексные оценки в сложных задачах согласования с человеческими предпочтениями демонстрируют превосходство GRAO, показывая относительные улучшения на 57,70%, 17,65%, 7,95% и 5,18% по сравнению с базовыми методами SFT, DPO, PPO и GRPO соответственно. Эта работа предоставляет как теоретически обоснованную структуру согласования, так и эмпирические доказательства эффективной эволюции возможностей языковых моделей.
English
Alignment methodologies have emerged as a critical pathway for enhancing
language model alignment capabilities. While SFT (supervised fine-tuning)
accelerates convergence through direct token-level loss intervention, its
efficacy is constrained by offline policy trajectory. In contrast,
RL(reinforcement learning) facilitates exploratory policy optimization, but
suffers from low sample efficiency and stringent dependency on high-quality
base models. To address these dual challenges, we propose GRAO (Group Relative
Alignment Optimization), a unified framework that synergizes the respective
strengths of SFT and RL through three key innovations: 1) A multi-sample
generation strategy enabling comparative quality assessment via reward
feedback; 2) A novel Group Direct Alignment Loss formulation leveraging
intra-group relative advantage weighting; 3) Reference-aware parameter updates
guided by pairwise preference dynamics. Our theoretical analysis establishes
GRAO's convergence guarantees and sample efficiency advantages over
conventional approaches. Comprehensive evaluations across complex human
alignment tasks demonstrate GRAO's superior performance, achieving
57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and
GRPO baselines respectively. This work provides both a theoretically grounded
alignment framework and empirical evidence for efficient capability evolution
in language models.