Allineamento tramite Campionamento Online Ponderato Meta: Colmare il Divario tra Generazione dei Dati e Ottimizzazione delle Preferenze
Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization
September 27, 2025
Autori: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI
Abstract
L'ottimizzazione delle preferenze è cruciale per allineare i grandi modelli linguistici (LLM) ai valori e alle intenzioni umane. Una sfida significativa in questo processo è il disallineamento distributivo tra i dati di preferenza raccolti offline e la politica in evoluzione del modello. I metodi esistenti cercano di ridurre questo divario utilizzando euristiche statiche o strategie di campionamento online disaccoppiate, ma spesso non riescono ad adattarsi allo stato di apprendimento dinamico del modello. Per colmare questa lacuna, proponiamo Meta-Weighted Adaptive Preference Optimization (MetaAPO), un nuovo framework che accoppia dinamicamente la generazione dei dati con l'addestramento del modello. MetaAPO impiega un meta-learner leggero, come "stimatore del divario di allineamento", per valutare i potenziali benefici del campionamento on-policy rispetto ai dati offline. Questo guida la generazione online mirata e assegna pesi meta specifici per ciascun campione all'obiettivo di ottimizzazione, bilanciando dinamicamente la qualità e la distribuzione dei dati online e offline. Gli esperimenti su AlpacaEval 2, Arena-Hard e MT-Bench dimostrano che MetaAPO supera costantemente gli approcci esistenti di ottimizzazione delle preferenze in vari contesti, riducendo del 42% i costi di annotazione online.
English
Preference optimization is crucial for aligning large language models (LLMs)
with human values and intentions. A significant challenge in this process is
the distribution mismatch between pre-collected offline preference data and the
evolving model policy. Existing methods attempt to reduce this gap using static
heuristics or decoupled online sampling strategies, but they often fail to
adapt to the model's dynamic learning state. To bridge this gap, we propose
Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework
that dynamically couples data generation with model training. MetaAPO employs a
lightweight meta-learner, as an "alignment gap estimator", to evaluate the
potential benefits of on-policy sampling in relation to offline data. This
guides targeted online generation and assigns sample-wise meta-weights to the
optimization objective, dynamically balancing the quality and distribution of
online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench
demonstrate that MetaAPO consistently outperforms existing preference
optimization approaches across various settings, while reducing 42% in online
annotation costs.