ChatPaper.aiChatPaper

메타 가중치 온라인 샘플링을 통한 정렬: 데이터 생성과 선호도 최적화 간의 격차 해소

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

September 27, 2025
저자: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI

초록

선호도 최적화는 대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추는 데 있어 핵심적인 역할을 합니다. 이 과정에서 중요한 과제 중 하나는 사전 수집된 오프라인 선호도 데이터와 진화하는 모델 정책 간의 분포 불일치 문제입니다. 기존 방법들은 정적 휴리스틱이나 분리된 온라인 샘플링 전략을 통해 이러한 격차를 줄이려 시도하지만, 모델의 동적 학습 상태에 적응하지 못하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 데이터 생성과 모델 훈련을 동적으로 결합하는 새로운 프레임워크인 메타 가중치 적응형 선호도 최적화(MetaAPO)를 제안합니다. MetaAPO는 경량 메타-러너를 "정렬 격차 추정기"로 활용하여 온-정책 샘플링의 잠재적 이점을 오프라인 데이터와 관련하여 평가합니다. 이를 통해 표적 온라인 생성을 안내하고 최적화 목표에 샘플별 메타 가중치를 할당함으로써 온라인과 오프라인 데이터의 품질과 분포를 동적으로 균형 있게 조정합니다. AlpacaEval 2, Arena-Hard 및 MT-Bench에서의 실험 결과, MetaAPO는 다양한 설정에서 기존 선호도 최적화 접근법을 일관되게 능가하는 동시에 온라인 주석 비용을 42% 절감하는 것으로 나타났습니다.
English
Preference optimization is crucial for aligning large language models (LLMs) with human values and intentions. A significant challenge in this process is the distribution mismatch between pre-collected offline preference data and the evolving model policy. Existing methods attempt to reduce this gap using static heuristics or decoupled online sampling strategies, but they often fail to adapt to the model's dynamic learning state. To bridge this gap, we propose Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework that dynamically couples data generation with model training. MetaAPO employs a lightweight meta-learner, as an "alignment gap estimator", to evaluate the potential benefits of on-policy sampling in relation to offline data. This guides targeted online generation and assigns sample-wise meta-weights to the optimization objective, dynamically balancing the quality and distribution of online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench demonstrate that MetaAPO consistently outperforms existing preference optimization approaches across various settings, while reducing 42% in online annotation costs.
PDF51September 30, 2025