ChatPaper.aiChatPaper

배우면서 정렬하고, 정렬하면서 배우기: 자기 최적화 정렬을 위한 통합 접근법

Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

August 11, 2025
저자: Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

초록

언어 모델 정렬 능력을 강화하기 위한 핵심 접근법으로 정렬 방법론이 부상하고 있다. 지도 미세 조정(SFT)은 직접적인 토큰 수준 손실 개입을 통해 수렴을 가속하지만, 오프라인 정책 궤적에 의해 그 효율성이 제한된다. 반면, 강화 학습(RL)은 탐색적 정책 최적화를 가능하게 하지만, 낮은 샘플 효율성과 고품질 기본 모델에 대한 엄격한 의존성이라는 문제를 안고 있다. 이러한 이중 과제를 해결하기 위해, 우리는 GRAO(Group Relative Alignment Optimization)를 제안한다. 이 통합 프레임워크는 SFT와 RL의 각각의 강점을 시너지 효과적으로 결합하기 위해 세 가지 주요 혁신을 도입한다: 1) 보상 피드백을 통한 비교적 품질 평가를 가능하게 하는 다중 샘플 생성 전략; 2) 그룹 내 상대적 이점 가중치를 활용한 새로운 그룹 직접 정렬 손실 공식; 3) 쌍별 선호도 역학에 기반한 참조 인식 매개변수 업데이트. 우리의 이론적 분석은 GRAO가 기존 접근법에 비해 수렴 보장과 샘플 효율성 측면에서 우수함을 입증한다. 복잡한 인간 정렬 작업에 대한 포괄적 평가 결과, GRAO는 SFT, DPO, PPO, GRPO 기준선 대비 각각 57.70%, 17.65%, 7.95%, 5.18%의 상대적 개선을 달성하며 우수한 성능을 보여준다. 이 연구는 이론적으로 근거 있는 정렬 프레임워크와 언어 모델의 효율적 능력 진화에 대한 실증적 증거를 제공한다.
English
Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GRAO (Group Relative Alignment Optimization), a unified framework that synergizes the respective strengths of SFT and RL through three key innovations: 1) A multi-sample generation strategy enabling comparative quality assessment via reward feedback; 2) A novel Group Direct Alignment Loss formulation leveraging intra-group relative advantage weighting; 3) Reference-aware parameter updates guided by pairwise preference dynamics. Our theoretical analysis establishes GRAO's convergence guarantees and sample efficiency advantages over conventional approaches. Comprehensive evaluations across complex human alignment tasks demonstrate GRAO's superior performance, achieving 57.70\%,17.65\% 7.95\% and 5.18\% relative improvements over SFT, DPO, PPO and GRPO baselines respectively. This work provides both a theoretically grounded alignment framework and empirical evidence for efficient capability evolution in language models.
PDF142August 14, 2025