Afstemming via Meta-Gewogen Online Sampling: Het Overbruggen van de Kloof tussen Datageneratie en Voorkeursoptimalisatie
Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization
September 27, 2025
Auteurs: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI
Samenvatting
Preferentie-optimalisatie is cruciaal voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden en intenties. Een belangrijke uitdaging in dit proces is de distributiemismatch tussen vooraf verzamelde offline preferentiedata en het evoluerende modelbeleid. Bestaande methoden proberen deze kloof te verkleinen met behulp van statische heuristieken of ontkoppelde online samplingstrategieën, maar slagen er vaak niet in zich aan te passen aan de dynamische leerstatus van het model. Om deze kloof te overbruggen, stellen we Meta-Weighted Adaptive Preference Optimization (MetaAPO) voor, een nieuw raamwerk dat datageneratie dynamisch koppelt aan modeltraining. MetaAPO maakt gebruik van een lichtgewicht meta-leerder, die fungeert als een "alignment gap estimator", om de potentiële voordelen van on-policy sampling in relatie tot offline data te evalueren. Dit leidt tot gerichte online generatie en wijst sample-wise meta-gewichten toe aan het optimalisatiedoel, waardoor de kwaliteit en distributie van online en offline data dynamisch in balans worden gebracht. Experimenten op AlpacaEval 2, Arena-Hard en MT-Bench tonen aan dat MetaAPO consistent beter presteert dan bestaande preferentie-optimalisatiebenaderingen in diverse instellingen, terwijl het de online annotatiekosten met 42% reduceert.
English
Preference optimization is crucial for aligning large language models (LLMs)
with human values and intentions. A significant challenge in this process is
the distribution mismatch between pre-collected offline preference data and the
evolving model policy. Existing methods attempt to reduce this gap using static
heuristics or decoupled online sampling strategies, but they often fail to
adapt to the model's dynamic learning state. To bridge this gap, we propose
Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework
that dynamically couples data generation with model training. MetaAPO employs a
lightweight meta-learner, as an "alignment gap estimator", to evaluate the
potential benefits of on-policy sampling in relation to offline data. This
guides targeted online generation and assigns sample-wise meta-weights to the
optimization objective, dynamically balancing the quality and distribution of
online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench
demonstrate that MetaAPO consistently outperforms existing preference
optimization approaches across various settings, while reducing 42% in online
annotation costs.