ChatPaper.aiChatPaper

Ausrichtung durch Meta-gewichtete Online-Stichproben: Überbrückung der Lücke zwischen Datengenerierung und Präferenzoptimierung

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

September 27, 2025
papers.authors: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI

papers.abstract

Die Präferenzoptimierung ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Werten und Absichten in Einklang zu bringen. Eine wesentliche Herausforderung in diesem Prozess ist die Verteilungsdiskrepanz zwischen vorab gesammelten Offline-Präferenzdaten und der sich entwickelnden Modellpolitik. Bestehende Methoden versuchen, diese Lücke durch statische Heuristiken oder entkoppelte Online-Sampling-Strategien zu verringern, scheitern jedoch oft daran, sich an den dynamischen Lernzustand des Modells anzupassen. Um diese Lücke zu schließen, schlagen wir Meta-Weighted Adaptive Preference Optimization (MetaAPO) vor, ein neuartiges Framework, das die Datengenerierung dynamisch mit dem Modelltraining koppelt. MetaAPO verwendet einen leichtgewichtigen Meta-Learner als „Alignment-Gap-Schätzer“, um die potenziellen Vorteile des On-Policy-Samplings im Vergleich zu Offline-Daten zu bewerten. Dies leitet eine gezielte Online-Generierung an und weist der Optimierungszielvorgabe stichprobenweise Meta-Gewichte zu, wodurch die Qualität und Verteilung von Online- und Offline-Daten dynamisch ausbalanciert werden. Experimente auf AlpacaEval 2, Arena-Hard und MT-Bench zeigen, dass MetaAPO bestehende Präferenzoptimierungsansätze in verschiedenen Szenarien durchweg übertrifft und gleichzeitig die Online-Annotationkosten um 42 % reduziert.
English
Preference optimization is crucial for aligning large language models (LLMs) with human values and intentions. A significant challenge in this process is the distribution mismatch between pre-collected offline preference data and the evolving model policy. Existing methods attempt to reduce this gap using static heuristics or decoupled online sampling strategies, but they often fail to adapt to the model's dynamic learning state. To bridge this gap, we propose Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework that dynamically couples data generation with model training. MetaAPO employs a lightweight meta-learner, as an "alignment gap estimator", to evaluate the potential benefits of on-policy sampling in relation to offline data. This guides targeted online generation and assigns sample-wise meta-weights to the optimization objective, dynamically balancing the quality and distribution of online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench demonstrate that MetaAPO consistently outperforms existing preference optimization approaches across various settings, while reducing 42% in online annotation costs.
PDF51September 30, 2025