ChatPaper.aiChatPaper

Согласование через мета-взвешенное онлайн-выборку: преодоление разрыва между генерацией данных и оптимизацией предпочтений

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

September 27, 2025
Авторы: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI

Аннотация

Оптимизация предпочтений играет ключевую роль в согласовании крупных языковых моделей (LLM) с человеческими ценностями и намерениями. Одной из значительных проблем в этом процессе является несоответствие распределений между предварительно собранными оффлайн-данными о предпочтениях и эволюционирующей политикой модели. Существующие методы пытаются сократить этот разрыв с помощью статических эвристик или разделенных стратегий онлайн-сэмплирования, но они часто не способны адаптироваться к динамическому состоянию обучения модели. Для устранения этого разрыва мы предлагаем Meta-Weighted Adaptive Preference Optimization (MetaAPO) — новую структуру, которая динамически связывает генерацию данных с обучением модели. MetaAPO использует легковесный мета-обучаемый модуль в качестве "оценщика разрыва согласования" для анализа потенциальных преимуществ онлайн-сэмплирования по сравнению с оффлайн-данными. Это направляет целенаправленную онлайн-генерацию и назначает мета-веса для каждого образца в оптимизационной цели, динамически балансируя качество и распределение онлайн- и оффлайн-данных. Эксперименты на AlpacaEval 2, Arena-Hard и MT-Bench показывают, что MetaAPO стабильно превосходит существующие подходы к оптимизации предпочтений в различных условиях, одновременно сокращая затраты на онлайн-аннотирование на 42%.
English
Preference optimization is crucial for aligning large language models (LLMs) with human values and intentions. A significant challenge in this process is the distribution mismatch between pre-collected offline preference data and the evolving model policy. Existing methods attempt to reduce this gap using static heuristics or decoupled online sampling strategies, but they often fail to adapt to the model's dynamic learning state. To bridge this gap, we propose Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework that dynamically couples data generation with model training. MetaAPO employs a lightweight meta-learner, as an "alignment gap estimator", to evaluate the potential benefits of on-policy sampling in relation to offline data. This guides targeted online generation and assigns sample-wise meta-weights to the optimization objective, dynamically balancing the quality and distribution of online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench demonstrate that MetaAPO consistently outperforms existing preference optimization approaches across various settings, while reducing 42% in online annotation costs.
PDF51September 30, 2025