Alineación mediante Muestreo en Línea Ponderado por Meta: Cerrando la Brecha entre la Generación de Datos y la Optimización de Preferencias
Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization
September 27, 2025
Autores: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng
cs.AI
Resumen
La optimización de preferencias es crucial para alinear los modelos de lenguaje de gran escala (LLMs) con los valores e intenciones humanas. Un desafío significativo en este proceso es la discrepancia en la distribución entre los datos de preferencia recopilados previamente de manera offline y la política del modelo en evolución. Los métodos existentes intentan reducir esta brecha utilizando heurísticas estáticas o estrategias de muestreo online desacopladas, pero a menudo no logran adaptarse al estado dinámico de aprendizaje del modelo. Para cerrar esta brecha, proponemos Meta-Weighted Adaptive Preference Optimization (MetaAPO), un marco novedoso que acopla dinámicamente la generación de datos con el entrenamiento del modelo. MetaAPO emplea un meta-aprendizaje ligero, como un "estimador de la brecha de alineación", para evaluar los beneficios potenciales del muestreo on-policy en relación con los datos offline. Esto guía la generación online dirigida y asigna pesos meta específicos para cada muestra al objetivo de optimización, equilibrando dinámicamente la calidad y la distribución de los datos online y offline. Los experimentos en AlpacaEval 2, Arena-Hard y MT-Bench demuestran que MetaAPO supera consistentemente los enfoques existentes de optimización de preferencias en diversos entornos, al tiempo que reduce un 42% los costos de anotación online.
English
Preference optimization is crucial for aligning large language models (LLMs)
with human values and intentions. A significant challenge in this process is
the distribution mismatch between pre-collected offline preference data and the
evolving model policy. Existing methods attempt to reduce this gap using static
heuristics or decoupled online sampling strategies, but they often fail to
adapt to the model's dynamic learning state. To bridge this gap, we propose
Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework
that dynamically couples data generation with model training. MetaAPO employs a
lightweight meta-learner, as an "alignment gap estimator", to evaluate the
potential benefits of on-policy sampling in relation to offline data. This
guides targeted online generation and assigns sample-wise meta-weights to the
optimization objective, dynamically balancing the quality and distribution of
online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench
demonstrate that MetaAPO consistently outperforms existing preference
optimization approaches across various settings, while reducing 42% in online
annotation costs.