ChatPaper.aiChatPaper

Alinhamento por meio de Amostragem Online Ponderada por Meta: Reduzindo a Lacuna entre Geração de Dados e Otimização de Preferências

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

September 27, 2025
Autores: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI

Resumo

A otimização de preferências é crucial para alinhar grandes modelos de linguagem (LLMs) com valores e intenções humanas. Um desafio significativo nesse processo é a incompatibilidade de distribuição entre os dados de preferência pré-coletados offline e a política em evolução do modelo. Métodos existentes tentam reduzir essa lacuna usando heurísticas estáticas ou estratégias de amostragem online desacopladas, mas frequentemente falham em se adaptar ao estado dinâmico de aprendizado do modelo. Para preencher essa lacuna, propomos a Meta-Weighted Adaptive Preference Optimization (MetaAPO), uma estrutura inovadora que acopla dinamicamente a geração de dados ao treinamento do modelo. A MetaAPO emprega um meta-aprendiz leve, como um "estimador de lacuna de alinhamento", para avaliar os benefícios potenciais da amostragem on-policy em relação aos dados offline. Isso orienta a geração online direcionada e atribui meta-pesos específicos a cada amostra no objetivo de otimização, equilibrando dinamicamente a qualidade e a distribuição dos dados online e offline. Experimentos no AlpacaEval 2, Arena-Hard e MT-Bench demonstram que a MetaAPO supera consistentemente as abordagens existentes de otimização de preferências em várias configurações, enquanto reduz 42% nos custos de anotação online.
English
Preference optimization is crucial for aligning large language models (LLMs) with human values and intentions. A significant challenge in this process is the distribution mismatch between pre-collected offline preference data and the evolving model policy. Existing methods attempt to reduce this gap using static heuristics or decoupled online sampling strategies, but they often fail to adapt to the model's dynamic learning state. To bridge this gap, we propose Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework that dynamically couples data generation with model training. MetaAPO employs a lightweight meta-learner, as an "alignment gap estimator", to evaluate the potential benefits of on-policy sampling in relation to offline data. This guides targeted online generation and assigns sample-wise meta-weights to the optimization objective, dynamically balancing the quality and distribution of online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench demonstrate that MetaAPO consistently outperforms existing preference optimization approaches across various settings, while reducing 42% in online annotation costs.
PDF51September 30, 2025