Ausrichtung durch Meta-gewichtete Online-Stichproben: Überbrückung der Lücke zwischen Datengenerierung und Präferenzoptimierung
Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization
September 27, 2025
papers.authors: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI
papers.abstract
Die Präferenzoptimierung ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Werten und Absichten in Einklang zu bringen. Eine wesentliche Herausforderung in diesem Prozess ist die Verteilungsdiskrepanz zwischen vorab gesammelten Offline-Präferenzdaten und der sich entwickelnden Modellpolitik. Bestehende Methoden versuchen, diese Lücke durch statische Heuristiken oder entkoppelte Online-Sampling-Strategien zu verringern, scheitern jedoch oft daran, sich an den dynamischen Lernzustand des Modells anzupassen. Um diese Lücke zu schließen, schlagen wir Meta-Weighted Adaptive Preference Optimization (MetaAPO) vor, ein neuartiges Framework, das die Datengenerierung dynamisch mit dem Modelltraining koppelt. MetaAPO verwendet einen leichtgewichtigen Meta-Learner als „Alignment-Gap-Schätzer“, um die potenziellen Vorteile des On-Policy-Samplings im Vergleich zu Offline-Daten zu bewerten. Dies leitet eine gezielte Online-Generierung an und weist der Optimierungszielvorgabe stichprobenweise Meta-Gewichte zu, wodurch die Qualität und Verteilung von Online- und Offline-Daten dynamisch ausbalanciert werden. Experimente auf AlpacaEval 2, Arena-Hard und MT-Bench zeigen, dass MetaAPO bestehende Präferenzoptimierungsansätze in verschiedenen Szenarien durchweg übertrifft und gleichzeitig die Online-Annotationkosten um 42 % reduziert.
English
Preference optimization is crucial for aligning large language models (LLMs)
with human values and intentions. A significant challenge in this process is
the distribution mismatch between pre-collected offline preference data and the
evolving model policy. Existing methods attempt to reduce this gap using static
heuristics or decoupled online sampling strategies, but they often fail to
adapt to the model's dynamic learning state. To bridge this gap, we propose
Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework
that dynamically couples data generation with model training. MetaAPO employs a
lightweight meta-learner, as an "alignment gap estimator", to evaluate the
potential benefits of on-policy sampling in relation to offline data. This
guides targeted online generation and assigns sample-wise meta-weights to the
optimization objective, dynamically balancing the quality and distribution of
online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench
demonstrate that MetaAPO consistently outperforms existing preference
optimization approaches across various settings, while reducing 42% in online
annotation costs.