Alignement par Échantillonnage en Ligne Pondéré Méta : Combler l'Écart entre Génération de Données et Optimisation des Préférences
Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization
September 27, 2025
papers.authors: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI
papers.abstract
L'optimisation des préférences est cruciale pour aligner les grands modèles de langage (LLM) avec les valeurs et intentions humaines. Un défi majeur dans ce processus est l'inadéquation de distribution entre les données de préférences pré-collectées hors ligne et la politique évolutive du modèle. Les méthodes existantes tentent de réduire cet écart en utilisant des heuristiques statiques ou des stratégies d'échantillonnage en ligne découplées, mais elles échouent souvent à s'adapter à l'état d'apprentissage dynamique du modèle. Pour combler cet écart, nous proposons Meta-Weighted Adaptive Preference Optimization (MetaAPO), un cadre novateur qui couple dynamiquement la génération de données avec l'entraînement du modèle. MetaAPO utilise un méta-apprenant léger, en tant qu'"estimateur de l'écart d'alignement", pour évaluer les bénéfices potentiels de l'échantillonnage sur la politique par rapport aux données hors ligne. Cela guide la génération en ligne ciblée et attribue des méta-poids spécifiques à chaque échantillon pour l'objectif d'optimisation, équilibrant dynamiquement la qualité et la distribution des données en ligne et hors ligne. Les expériences sur AlpacaEval 2, Arena-Hard et MT-Bench démontrent que MetaAPO surpasse systématiquement les approches existantes d'optimisation des préférences dans divers contextes, tout en réduisant de 42 % les coûts d'annotation en ligne.
English
Preference optimization is crucial for aligning large language models (LLMs)
with human values and intentions. A significant challenge in this process is
the distribution mismatch between pre-collected offline preference data and the
evolving model policy. Existing methods attempt to reduce this gap using static
heuristics or decoupled online sampling strategies, but they often fail to
adapt to the model's dynamic learning state. To bridge this gap, we propose
Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework
that dynamically couples data generation with model training. MetaAPO employs a
lightweight meta-learner, as an "alignment gap estimator", to evaluate the
potential benefits of on-policy sampling in relation to offline data. This
guides targeted online generation and assigns sample-wise meta-weights to the
optimization objective, dynamically balancing the quality and distribution of
online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench
demonstrate that MetaAPO consistently outperforms existing preference
optimization approaches across various settings, while reducing 42% in online
annotation costs.